Volltextdatei(en) in REPOSIT vorhanden Open Access
DC ElementWertSprache
dc.contributor.advisorPareigis, Stephan-
dc.contributor.authorSentler, Dennis-
dc.date.accessioned2025-03-12T10:00:06Z-
dc.date.available2025-03-12T10:00:06Z-
dc.date.created2022-08-22-
dc.date.issued2025-03-12-
dc.identifier.urihttps://hdl.handle.net/20.500.12738/17294-
dc.description.abstractZiel dieser Arbeit ist es, einen durch Sprachbefehle gesteuerten Not-Halt-Kontroller zu entwickeln, der auf einem Edge-Gerät mit geringem Leistungsvermögen betrieben werden kann. Sekundäres Ziel ist eine Trainingsanwendung, die den aufwendigen Trainingsprozess mithilfe von synthetischen Trainingsdaten automatisieren kann. Dabei stellen sich zusätzliche Fragen: Welche neuronale Netzwerkarchitektur eignet sich für eine Herunterskalierung auf Edge-Geräte-Niveau? Kann State of the Art Sprachsynthese den manuellen Arbeitsaufwand im vorliegenden Fall ersetzen? Es ist möglich, dass für neuronale Netze ein synthetischer Datensatz noch kein voller Ersatz ist. Andererseits hat die Sprachsynthese in den letzten Jahren große Fortschritte gezeigt. Für die Umsetzung wird eine aus dem MobileNet [1] bekannte DS-CNN-Architektur verwendet und herunterskaliert. Das Training wird auf dem Google Speech Command Dataset [2] sowie auf einem synthetischen Datensatz umgesetzt. Die Audiosynthese erfolgt über eine eigene GUI-Anwendung, die mit führenden Online-TTS-Anbietern integriert ist. Es stellt sich heraus, dass die DS-CNN-Architektur grundsätzlich für diesen Kontext geeignet ist, die Trainingsdaten aber über den Erfolg bestimmen. Im Vergleich können die allein synthetisch-trainierten Netzwerke bei der Detektion nicht mithalten. Allerdings konnte mit dem Google Speech Command Dataset [2] der Not-Halt-Kontroller erfolgreich umgesetzt werden.de
dc.description.abstractThe goal of this work is to develop an emergency stop controller operated by voice commands that can be deployed on an edge device with a small footprint. The secondary goal is a training application that automates the time-consuming training process using synthetic training data. Several questions arise: Which neural network architecture is suitable for downscaling to edge device capabilities? Can state-of-the-art speech synthesis replace the need to manually collect and categorize speech recordings in our case? It is possible that for neural networks, a synthetic dataset is still not a full substitute. On the other hand, speech synthesis has shown growing potential in recent years. For the implementation, a downscaled DS-CNN architecture known from MobileNet [1] is used. Training is performed on the Google Speech Command Dataset [2] and on a synthetic dataset. Audio synthesis is accomplished using a custom GUI application integrated with leading online TTS providers. It is found that the DS-CNN architecture is fundamentally suitable for this context, but the training data dictates its success; the networks trained on only synthetic data cannot keep up with those trained on real audio data. However, by using the Google Speech Command Dataset [2], the emergency stop controller has been successfully implemented.en
dc.language.isodeen_US
dc.subjectEdge Computingen_US
dc.subjectKünstliche Intelligenzen_US
dc.subjectAI on Edgeen_US
dc.subjectAutomatisiertes Trainingen_US
dc.subjectRobotiken_US
dc.subjectSmart Cityen_US
dc.subjectNot-Halten_US
dc.subjectSprachsteuerungen_US
dc.subjectMensch-Maschinen-Interaktionen_US
dc.subjectArtificial Intelligenceen_US
dc.subjectAutomated Trainingen_US
dc.subjectRoboticsen_US
dc.subjectEmergency Stopen_US
dc.subjectVoice Controlen_US
dc.subjectHuman–Machine Interfaceen_US
dc.subject.ddc004: Informatiken_US
dc.titleDetektion von Sprachbefehlen auf Edge-Geräten unterstützt durch automatisierte Trainingsdaten-Synthese für eine Not-Halt-Anwendungde
dc.typeThesisen_US
openaire.rightsinfo:eu-repo/semantics/openAccessen_US
thesis.grantor.departmentDepartment Informatiken_US
thesis.grantor.universityOrInstitutionHochschule für Angewandte Wissenschaften Hamburgen_US
tuhh.contributor.refereeStelldinger, Peer-
tuhh.identifier.urnurn:nbn:de:gbv:18302-reposit-209070-
tuhh.oai.showtrueen_US
tuhh.publication.instituteDepartment Informatiken_US
tuhh.publication.instituteFakultät Technik und Informatiken_US
tuhh.type.opusBachelor Thesis-
dc.type.casraiSupervised Student Publication-
dc.type.dinibachelorThesis-
dc.type.driverbachelorThesis-
dc.type.statusinfo:eu-repo/semantics/publishedVersionen_US
dc.type.thesisbachelorThesisen_US
dcterms.DCMITypeText-
tuhh.dnb.statusdomainen_US
item.grantfulltextopen-
item.creatorGNDSentler, Dennis-
item.cerifentitytypePublications-
item.creatorOrcidSentler, Dennis-
item.advisorGNDPareigis, Stephan-
item.languageiso639-1de-
item.openairecristypehttp://purl.org/coar/resource_type/c_46ec-
item.fulltextWith Fulltext-
item.openairetypeThesis-
Enthalten in den Sammlungen:Theses
Dateien zu dieser Ressource:
Zur Kurzanzeige

Seitenansichten

28
checked on 03.04.2025

Download(s)

6
checked on 03.04.2025

Google ScholarTM

Prüfe

HAW Katalog

Prüfe

Feedback zu diesem Datensatz


Alle Ressourcen in diesem Repository sind urheberrechtlich geschützt.