| Titel: | Analysis of Individual Speaker Features on Group-level Emotion Recognition from Speech | Sprache: | Englisch | Autorenschaft: | Lopez Quezada, Sarai | Erscheinungsdatum: | 4-Sep-2025 | Zusammenfassung: | Group Emotion Recognition (GER) ist von entscheidender Bedeutung sowohl f¨ur das Verst¨andnis sozialer Dynamiken als auch f¨ur das zwischenmenschliche Verhalten und f¨ur die Verbesserung von Mensch-Computer-Interaktionen. Group-Emotions umfassen die von den einzelnen Mitgliedern empfundenen Emotionen und die Kontextfaktoren der Gruppe, die den emotionalen Zustand der Gruppe beeinflussen. Systeme f¨ur GER, die auf Sprachsignalen basieren, sollten sich daher auf Informationen st¨utzen, die sowohl aus dem Gruppenkontext als auch aus dem individuellen Kontext stammen. Die Verwendung von Features, die aus Bildern von Einzelpersonen extrahiert wurden, in Kombination mit gruppenbasierten Features hat sich als wirksam f¨ur die Verbesserung der GER erwiesen. Daher l¨asst sich annehmen, dass die Einbeziehung individueller Informationen von Sprechenden zur Verbesserung der speech-based GER f¨uhren kann. In dieser Arbeit soll untersucht werden, wie verschiedene Arten von akustischen Features (cepstral, spectral, prosodic, temporal und Sound-Quality-Features) der einzelnen Sprechenden zur Emotionserkennung der Gruppe beitragen. Um dies zu erreichen, wird ein vortrainiertes Modell zur Speech-Separation verwendet. Dadurch werden die einzelnen Stimmen der Speech-Mixture isoliert. Anschließend werden Features aus der Speech-Mixture (Mixture-Features) und der Sprache der einzelnen Sprechenden (individual Features) extrahiert. Es werden verschiedene Experimente mit Support Vector Machines (SVMs) und Fully-Connected Neural Networks (FCNNs) f¨ur speech-based GER durchgef¨uhrt. Die Modelle werden f¨ur die Erkennung von drei Group-Emotiuon- Classes, namentlich Positiv, Neutral, und Negativ trainiert und auf speaker-dependant (bekannte Sprechende) und speaker-indipendent (unbekannte Sprechende) Daten getestet. Die verwendeten Sprachdaten bestehen aus Speech-Mixtures, die aus Videos der VGAF-Datenbank gewonnen wurden. Die SVM- und FCNN-Modelle werden separat auf verschiedenen Feature-Sets trainiert, die Mixture- und individual Features kombinieren. Die Ergebnisse zeigen eine signifikante Verbesserung der Leistung des FCNN-Modells in speaker-indipendent Test-Szenarien, wenn das Modell eine Kombination aus spectral-individual Features und Mixture-Features als Trainingsdaten verwendet (Makro-F1-Score = 65.56%), verglichen mit der Verwendung von ausschließlich Mixture-Features (Makro-F1-Score = 53.48%). Sound-Quality-, temporal und cepstral Features der einzelnen Sprechenden zeigen ebenfalls Verbesserungen bei den GERWerten, die von den Modellen erreicht werden, wenn sie in Kombination mit den Mixture-Features f¨ur das Training verwendet werden. Group Emotion Recognition (GER) is crucial for understanding social dynamics and inter-human behavior, enhancing human-computer interactions. Group emotion encompasses the emotions felt by the individual members and group context factors that shape the emotional state of the group. Employing features extracted from images of the individuals in combination with group-based features has been proven to be effective for improving GER. Consequently, there is a potential for involving individual speaker information to improve speech-based GER. This work aims to analyze how different types of acoustic features (cepstral, spectral, prosodic, temporal, and sound quality features) from the individual speakers contribute to the emotion recognition of the group. To achieve this, a pre-trained model for speech separation is employed for isolating the speech of each speaker in the mixture. Then, features are extracted from the speech mixtures (mixture features) and the individuals’ speech (individual features). Various experiments are conducted using Support Vector Machines (SVMs) and Fully-Connected Neural Networks (FCNNs) for speech-based GER. The models are trained for recognition of three group emotion classes, namely Positive, Neutral, and Negative. They are tested in speaker-dependent, i.e. known speakers, as well as speaker-independent, i.e. unknown speakers, scenarios. The speech data employed consists of speech mixtures obtained from videos of the VGAF database. The SVM and FCNN models are trained separately on different feature sets that combine mixture and individual features. The results show a significant improvement in the performance of the FCNN model in speaker-independent scenarios when the model uses a combination of spectral-individual features and mixture features as training input (macro F1-score = 65.56%), compared to using only mixture features (macro F1-score = 53.48%). Sound quality, temporal, and cepstral features from the individual speakers also demonstrate improvements in the GER scores achieved by the models when used in combination with the mixture features for training. |
URI: | https://hdl.handle.net/20.500.12738/18123 | Einrichtung: | Fakultät Life Sciences Department Medizintechnik |
Dokumenttyp: | Abschlussarbeit | Abschlussarbeitentyp: | Masterarbeit | Betreuer*in: | Schiemann, Thomas | Gutachter*in: | Schultz, Tanja |
| Enthalten in den Sammlungen: | Theses |
Dateien zu dieser Ressource:
| Datei | Beschreibung | Größe | Format | |
|---|---|---|---|---|
| MA_Analysis_of_individual_speaker_features.pdf | 3.06 MB | Adobe PDF | Öffnen/Anzeigen |
Feedback zu diesem Datensatz
Export
Alle Ressourcen in diesem Repository sind urheberrechtlich geschützt.