Volltextdatei(en) in REPOSIT vorhanden Open Access
DC ElementWertSprache
dc.contributor.advisorTropmann-Frick, Marina-
dc.contributor.authorOhsten, Moritz-
dc.date.accessioned2025-08-08T07:03:27Z-
dc.date.available2025-08-08T07:03:27Z-
dc.date.created2024-10-04-
dc.date.issued2025-08-08-
dc.identifier.urihttps://hdl.handle.net/20.500.12738/17983-
dc.description.abstractDas Ziel der vorliegenden Arbeit ist es, zu untersuchen, wie gut sich transformerbasierte Modelle, insbesondere BERT, bei der Erkennung komplexer Wörter in der deutschen Sprache im Vergleich zu traditionellen Verfahren des maschinellen Lernens bewähren und wie sich diese Modelle optimieren lassen. Die Arbeit stützt sich auf die Ergebnisse und den Datensatz des CWI 2018 Shared Task, der im Rahmen dieser Arbeit zunächst um zusätzliche linguistische Merkmale erweitert wurde. Zur Bestimmung der Relevanz dieser Merkmale sowie als Benchmark diente ein Random Forest Classifier (RFC). Anschließend wurden verschiedene BERT-Modelle gegenübergestellt und Optimierungstechniken wie Hyperparameter-Optimierung und Datenaugmentation auf das beste Modell angewendet. Dieses Modell sowie die optimierten Varianten dieses Modells wurden den Top-Systemen des CWI 2018 Shared Task gegenübergestellt, um die Leistung zu vergleichen. Die Ergebnisse zeigen, dass die BERT-Modelle besser abschnitten als die traditionellen Machine-Learning-Verfahren aus dem CWI 2018 Shared Task. Besonders die Hyperparameter-Optimierung und die Einbeziehung linguistischer Merkmale trugen zu einer signifikanten Leistungssteigerung bei. Dies verdeutlicht das Potenzial transformerbasierter Modelle für die Aufgabe der CWI im Vergleich zu traditionellen Verfahren.de
dc.description.abstractThe aim of this thesis is to investigate how well transformer-based models, in particular BERT, perform in the recognition of complex words in German compared to traditional machine learning methods and how these models can be optimized. The work is based on the results and the data set of the CWI 2018 Shared Task, which was initially expanded to include additional linguistic features as part of this work. A Random Forest Classifier (RFC) was used to determine the relevance of these features and as a benchmark. Subsequently, different BERT models were compared and optimization techniques such as hyperparameter optimization and data augmentation were applied to the best model. This model and the optimized variants of this model were compared to the top systems of the CWI 2018 Shared Task to compare performance. The results show that the BERT models performed better than the traditional machine learning methods from the CWI 2018 Shared Task. Especially the hyperparameter optimization and the inclusion of linguistic features contributed to a significant increase in performance. This illustrates the potential of transformer-based models for the CWI task compared to traditional methods.en
dc.language.isodeen_US
dc.subjectNatürliche Sprachverarbeitungen_US
dc.subjectKomplexen_US
dc.subjectWorten_US
dc.subjectTransformeren_US
dc.subjectBERTen_US
dc.subject.ddc004: Informatiken_US
dc.titleNLP-Based Complex Word Identification in Germande
dc.typeThesisen_US
openaire.rightsinfo:eu-repo/semantics/openAccessen_US
thesis.grantor.departmentFakultät Technik und Informatiken_US
thesis.grantor.departmentDepartment Informatiken_US
thesis.grantor.universityOrInstitutionHochschule für Angewandte Wissenschaften Hamburgen_US
tuhh.contributor.refereeSarstedt, Stefan-
tuhh.identifier.urnurn:nbn:de:gbv:18302-reposit-217359-
tuhh.oai.showtrueen_US
tuhh.publication.instituteFakultät Technik und Informatiken_US
tuhh.publication.instituteDepartment Informatiken_US
tuhh.type.opusBachelor Thesis-
dc.type.casraiSupervised Student Publication-
dc.type.dinibachelorThesis-
dc.type.driverbachelorThesis-
dc.type.statusinfo:eu-repo/semantics/publishedVersionen_US
dc.type.thesisbachelorThesisen_US
dcterms.DCMITypeText-
tuhh.dnb.statusdomainen_US
item.cerifentitytypePublications-
item.fulltextWith Fulltext-
item.languageiso639-1de-
item.advisorGNDTropmann-Frick, Marina-
item.grantfulltextopen-
item.creatorGNDOhsten, Moritz-
item.openairetypeThesis-
item.openairecristypehttp://purl.org/coar/resource_type/c_46ec-
item.creatorOrcidOhsten, Moritz-
Enthalten in den Sammlungen:Theses
Dateien zu dieser Ressource:
Datei Beschreibung GrößeFormat
BA_NLP-Based_Complex_Word_Identification_in_German.pdf1.79 MBAdobe PDFÖffnen/Anzeigen
Zur Kurzanzeige

Seitenansichten

7
checked on 10.08.2025

Download(s)

1
checked on 10.08.2025

Google ScholarTM

Prüfe

HAW Katalog

Prüfe

Feedback zu diesem Datensatz


Alle Ressourcen in diesem Repository sind urheberrechtlich geschützt.