NLP-Based Complex Word Identification in German

Ohsten, Moritz

Title:	NLP-Based Complex Word Identification in German
Language:	German
Authors:	Ohsten, Moritz
Keywords:	Natürliche Sprachverarbeitung; Komplex; Wort; Transformer; BERT
Issue Date:	8-Aug-2025
Abstract:	Das Ziel der vorliegenden Arbeit ist es, zu untersuchen, wie gut sich transformerbasierte Modelle, insbesondere BERT, bei der Erkennung komplexer Wörter in der deutschen Sprache im Vergleich zu traditionellen Verfahren des maschinellen Lernens bewähren und wie sich diese Modelle optimieren lassen. Die Arbeit stützt sich auf die Ergebnisse und den Datensatz des CWI 2018 Shared Task, der im Rahmen dieser Arbeit zunächst um zusätzliche linguistische Merkmale erweitert wurde. Zur Bestimmung der Relevanz dieser Merkmale sowie als Benchmark diente ein Random Forest Classifier (RFC). Anschließend wurden verschiedene BERT-Modelle gegenübergestellt und Optimierungstechniken wie Hyperparameter-Optimierung und Datenaugmentation auf das beste Modell angewendet. Dieses Modell sowie die optimierten Varianten dieses Modells wurden den Top-Systemen des CWI 2018 Shared Task gegenübergestellt, um die Leistung zu vergleichen. Die Ergebnisse zeigen, dass die BERT-Modelle besser abschnitten als die traditionellen Machine-Learning-Verfahren aus dem CWI 2018 Shared Task. Besonders die Hyperparameter-Optimierung und die Einbeziehung linguistischer Merkmale trugen zu einer signifikanten Leistungssteigerung bei. Dies verdeutlicht das Potenzial transformerbasierter Modelle für die Aufgabe der CWI im Vergleich zu traditionellen Verfahren. The aim of this thesis is to investigate how well transformer-based models, in particular BERT, perform in the recognition of complex words in German compared to traditional machine learning methods and how these models can be optimized. The work is based on the results and the data set of the CWI 2018 Shared Task, which was initially expanded to include additional linguistic features as part of this work. A Random Forest Classifier (RFC) was used to determine the relevance of these features and as a benchmark. Subsequently, different BERT models were compared and optimization techniques such as hyperparameter optimization and data augmentation were applied to the best model. This model and the optimized variants of this model were compared to the top systems of the CWI 2018 Shared Task to compare performance. The results show that the BERT models performed better than the traditional machine learning methods from the CWI 2018 Shared Task. Especially the hyperparameter optimization and the inclusion of linguistic features contributed to a significant increase in performance. This illustrates the potential of transformer-based models for the CWI task compared to traditional methods.
URI:	https://hdl.handle.net/20.500.12738/17983
Institute:	Fakultät Technik und Informatik Department Informatik
Type:	Thesis
Thesis type:	Bachelor Thesis
Advisor:	Tropmann-Frick, Marina
Referee:	Sarstedt, Stefan
Appears in Collections:	Theses