Volltextdatei(en) in REPOSIT vorhanden Open Access
DC ElementWertSprache
dc.contributor.advisorMeisel, Andreas-
dc.contributor.authorLapok, Fabien-
dc.date.accessioned2024-05-10T15:03:42Z-
dc.date.available2024-05-10T15:03:42Z-
dc.date.created2021-04-23-
dc.date.issued2024-05-10-
dc.identifier.urihttp://hdl.handle.net/20.500.12738/15720-
dc.description.abstractDas Ziel der vorliegenden Arbeit ist die Konzeption, Implementierung und Evaluation einer Architektur auf Basis Neuronaler Netze für die Synthese von Vogelgesang. Die hier entwickelte Architektur besteht aus zwei Neuronalen Netzen: einem Wasserstein-GAN, der Mel-Spektrogramme mit Vogelgesang erzeugt und einem für die Sprachsynthese vortrainierten Vocoder, der diese Mel-Spektrogramme in Audiosignale in Wellenform umwandelt. In diesem Zusammenhang wird die Funktionsweise von Generative Adversarial Networks (GANs) und die darauf aufbauenden Wasserstein-GANs beschrieben. Anschließend werden Evaluationsmetriken für die Beurteilung der erzielten Ergebnisse ausgearbeitet. Im Kern geht die Arbeit der Frage nach, ob die Architektur bestehend aus den Komponenten WGAN und Vocoder sich für die Synthese von Vogelgesang eignet. Dazu werden verschiedene Konfigurationen dieser Architektur trainiert und die erzielten Ergebnisse quantitativ und qualitativ evaluiert. Im Rahmen der quantitativen Evaluation wird der Frage nachgegangen, ob der FID-Score ein plausibler Indikator für die Bewertung von generiertem Vogelgesang ist. Die qualitative Evaluation erfolgt durch den Autor der Arbeit über den Vergleich von generierten Daten mit Daten aus dem Trainingsdatensatz. Als Grundlage dieses Vergleichs dienen ermittelte Nearest Neighbours von generierten Daten zu typischen Mustern aus dem Trainingsdatensatz. Die durchgeführte Evaluation zeigt, dass die vorgestellte Architektur die Synthese von einfachen Signalen des Vogelgesangs ohne Qualitätsverlust ermöglicht. Bei komplexen Signalen sind erkennbare Qualitätsunterschiede festzustellen. Zusätzlich wird gezeigt, dass der FIDScore einen validen Indikator für das Messen des Trainingsverlaufs und der Bewertung der synthetisierten Mel-Spektrogramme darstellt. Die Ergebnisse der Arbeit können als Ausgangspunkt für weiterführende Forschungsarbeiten dienen. Die erzeugten Ergebnisse und Implementationen sind für die Öffentlichkeit bereitgestellt.de
dc.description.abstractThe goal of this paper is to design, implement, and evaluate a neural network-based architecture for bird song synthesis. The developed architecture consists of two neural networks: A Wasserstein GAN that generates mel spectrograms of bird song and a vocoder, pre-trained for speech synthesis, that converts these spectrograms into audio signals. In this context, Generative Adversarial Networks (GANs) and Wasserstein GANs are described and based on this evaluation metrics for the assessment of the obtained results are elaborated. In essence, this thesis addresses the question of whether the architecture consisting of the components WGAN and Vocoder is suitable for the synthesis of bird song. For this purpose, different configurations of this architecture are trained and the obtained results are quantitatively and qualitatively evaluated. In the quantitative evaluation, the question of whether the FID score is a plausible metric for the evaluation of generated bird song is investigated. The qualitative evaluation is done by the author of the paper by comparing nearest neighbors of generated data to typical patterns from the training dataset. The evaluation shows that the presented architecture allows the synthesis of simple bird song without quality loss. More complex signals show a noticeable difference in quality. In addition, it is shown that the FID score is a valid indicator for measuring the training progress and the evaluation of the synthesized mel spectrograms. The results of the work can serve as a starting point for further research. The generated results and implementations have been made available to the public.en
dc.language.isodeen_US
dc.subjectDeep Learningen_US
dc.subjectNeuronale Netzeen_US
dc.subjectGANsen_US
dc.subjectWasserstein-GANsen_US
dc.subjectVocoderen_US
dc.subjectAudiosyntheseen_US
dc.subjectSynthese von Vogelgesangen_US
dc.subjectMel-Spektrogrammeen_US
dc.subjectPythonen_US
dc.subjectPytorchen_US
dc.subjectFID-Scoreen_US
dc.subjectAudio synthesisen_US
dc.subjectsynthesis of bird songsen_US
dc.subjectmel spectrogramsen_US
dc.subject.ddc004: Informatiken_US
dc.titleSynthetisierung von Audiosignalen mithilfe Neuronaler Netze am Beispiel von Vogelgesangde
dc.typeThesisen_US
openaire.rightsinfo:eu-repo/semantics/openAccessen_US
thesis.grantor.departmentFakultät Technik und Informatiken_US
thesis.grantor.departmentDepartment Informatiken_US
thesis.grantor.universityOrInstitutionHochschule für Angewandte Wissenschaften Hamburgen_US
tuhh.contributor.refereeTiedemann, Tim-
tuhh.identifier.urnurn:nbn:de:gbv:18302-reposit-185729-
tuhh.oai.showtrueen_US
tuhh.publication.instituteFakultät Technik und Informatiken_US
tuhh.publication.instituteDepartment Informatiken_US
tuhh.type.opusMasterarbeit-
dc.type.casraiSupervised Student Publication-
dc.type.dinimasterThesis-
dc.type.drivermasterThesis-
dc.type.statusinfo:eu-repo/semantics/publishedVersionen_US
dc.type.thesismasterThesisen_US
dcterms.DCMITypeText-
tuhh.dnb.statusdomainen_US
item.advisorGNDMeisel, Andreas-
item.creatorGNDLapok, Fabien-
item.languageiso639-1de-
item.cerifentitytypePublications-
item.openairecristypehttp://purl.org/coar/resource_type/c_46ec-
item.creatorOrcidLapok, Fabien-
item.fulltextWith Fulltext-
item.grantfulltextopen-
item.openairetypeThesis-
Enthalten in den Sammlungen:Theses
Dateien zu dieser Ressource:
Zur Kurzanzeige

Seitenansichten

180
checked on 25.11.2024

Download(s)

58
checked on 25.11.2024

Google ScholarTM

Prüfe

HAW Katalog

Prüfe

Feedback zu diesem Datensatz


Alle Ressourcen in diesem Repository sind urheberrechtlich geschützt.