Volltextdatei(en) in REPOSIT vorhanden Open Access
Titel: Simplification of German Narrative Documents with Longformer mBART
Sprache: Englisch
Autorenschaft: Schomacker, Thorben 
Schlagwörter: Language Generation; Transformer; Narrative Texts; German; Low-Resource; Few-Shot; Large Context
Erscheinungsdatum: 13-Feb-2025
Zusammenfassung: 
Transformer-models have become the most prominent method for solving a multitude of natural language processing (NLP) tasks since their introduction in 2017. Natural Language Generation (NLG) is one of these problems. In this thesis we applied modern NLG-techniques to the problem of text simplification. Text simplification can be desribed as an intra-language translation task, where standard language is translated to simple language. Currently there are only a few German datasets available for Text Simplification. Even fewer with larger and aligned Documents, and not a single one with narrative texts. With this paper we firstly explore to which degree modern NLG-techniques can be applied to our newly proposed German Narrative Text Simplifications dataset. We used Longformer Attention and a pre-trained mBART model. Our findings indicate that currently avaible approach are not able to solve the task properly. We conclude on a few directions for future research to adress this problem.

Transformator-Modelle haben sich seit ihrer Einführung im Jahr 2017 zur Lösung einer Vielzahl von Aufgaben der natürlichen Sprachverarbeitung (NLP) durchgesetzt. Natural Language Generation (NLG) ist eines dieser Probleme. In dieser Arbeit haben wir moderne NLG-Techniken auf das Problem der Textvereinfachung angewendet. Textvereinfachung kann als eine innersprachliche Übersetzungsaufgabe beschrieben werden, bei der Standardsprache in einfache Sprache übersetzt wird. Derzeit gibt es nur wenige deutsche Datensätze zur Textvereinfachung. Noch weniger mit größeren und Dokumenten, die in beiden Versionen vorliegen. Und kein einziger mit narrativen Texten. In diesem Beitrag untersuchen wir zunächst, inwieweit sich moderne NLG-Techniken auf unseren neu eingeführten deutschen Datensatz für narrative Textvereinfachungen anwenden lassen. Wir haben Longformer Attention und ein vortrainiertes mBART-Modell verwendet. Unsere Ergebnisse zeigen, dass die derzeit verfügbaren Ansätze nicht in der Lage sind, die Aufgabe richtig zu lösen. Wir schließen mit einigen Hinweisen für die zukünftige Forschung, um dieses Problem zu adressieren.
URI: https://hdl.handle.net/20.500.12738/17075
Einrichtung: Fakultät Technik und Informatik 
Department Informatik 
Dokumenttyp: Abschlussarbeit
Abschlussarbeitentyp: Masterarbeit
Hauptgutachter*in: Tropmann-Frick, Marina  
Gutachter*in der Arbeit: Zukunft, Olaf 
Dönicke, Tillmann 
Enthalten in den Sammlungen:Theses

Dateien zu dieser Ressource:
Datei Beschreibung GrößeFormat
MA_Simplification of German Narrative Documents.pdf1.9 MBAdobe PDFÖffnen/Anzeigen
Zur Langanzeige

Seitenansichten

120
checked on 26.02.2025

Download(s)

17
checked on 26.02.2025

Google ScholarTM

Prüfe

HAW Katalog

Prüfe

Feedback zu diesem Datensatz


Alle Ressourcen in diesem Repository sind urheberrechtlich geschützt.