
DC Element | Wert | Sprache |
---|---|---|
dc.contributor.advisor | Tropmann-Frick, Marina | - |
dc.contributor.author | Schomacker, Thorben | - |
dc.date.accessioned | 2025-02-13T12:35:30Z | - |
dc.date.available | 2025-02-13T12:35:30Z | - |
dc.date.created | 2022-12-15 | - |
dc.date.issued | 2025-02-13 | - |
dc.identifier.uri | https://hdl.handle.net/20.500.12738/17075 | - |
dc.description.abstract | Transformer-models have become the most prominent method for solving a multitude of natural language processing (NLP) tasks since their introduction in 2017. Natural Language Generation (NLG) is one of these problems. In this thesis we applied modern NLG-techniques to the problem of text simplification. Text simplification can be desribed as an intra-language translation task, where standard language is translated to simple language. Currently there are only a few German datasets available for Text Simplification. Even fewer with larger and aligned Documents, and not a single one with narrative texts. With this paper we firstly explore to which degree modern NLG-techniques can be applied to our newly proposed German Narrative Text Simplifications dataset. We used Longformer Attention and a pre-trained mBART model. Our findings indicate that currently avaible approach are not able to solve the task properly. We conclude on a few directions for future research to adress this problem. | en |
dc.description.abstract | Transformator-Modelle haben sich seit ihrer Einführung im Jahr 2017 zur Lösung einer Vielzahl von Aufgaben der natürlichen Sprachverarbeitung (NLP) durchgesetzt. Natural Language Generation (NLG) ist eines dieser Probleme. In dieser Arbeit haben wir moderne NLG-Techniken auf das Problem der Textvereinfachung angewendet. Textvereinfachung kann als eine innersprachliche Übersetzungsaufgabe beschrieben werden, bei der Standardsprache in einfache Sprache übersetzt wird. Derzeit gibt es nur wenige deutsche Datensätze zur Textvereinfachung. Noch weniger mit größeren und Dokumenten, die in beiden Versionen vorliegen. Und kein einziger mit narrativen Texten. In diesem Beitrag untersuchen wir zunächst, inwieweit sich moderne NLG-Techniken auf unseren neu eingeführten deutschen Datensatz für narrative Textvereinfachungen anwenden lassen. Wir haben Longformer Attention und ein vortrainiertes mBART-Modell verwendet. Unsere Ergebnisse zeigen, dass die derzeit verfügbaren Ansätze nicht in der Lage sind, die Aufgabe richtig zu lösen. Wir schließen mit einigen Hinweisen für die zukünftige Forschung, um dieses Problem zu adressieren. | de |
dc.language.iso | en | en_US |
dc.subject | Language Generation | en_US |
dc.subject | Transformer | en_US |
dc.subject | Narrative Texts | en_US |
dc.subject | German | en_US |
dc.subject | Low-Resource | en_US |
dc.subject | Few-Shot | en_US |
dc.subject | Large Context | en_US |
dc.subject.ddc | 004: Informatik | en_US |
dc.title | Simplification of German Narrative Documents with Longformer mBART | en |
dc.type | Thesis | en_US |
openaire.rights | info:eu-repo/semantics/openAccess | en_US |
thesis.grantor.department | Fakultät Technik und Informatik | en_US |
thesis.grantor.department | Department Informatik | en_US |
thesis.grantor.universityOrInstitution | Hochschule für Angewandte Wissenschaften Hamburg | en_US |
tuhh.contributor.referee | Zukunft, Olaf | - |
tuhh.contributor.referee | Dönicke, Tillmann | - |
tuhh.identifier.urn | urn:nbn:de:gbv:18302-reposit-207781 | - |
tuhh.oai.show | true | en_US |
tuhh.publication.institute | Fakultät Technik und Informatik | en_US |
tuhh.publication.institute | Department Informatik | en_US |
tuhh.type.opus | Masterarbeit | - |
dc.type.casrai | Supervised Student Publication | - |
dc.type.dini | masterThesis | - |
dc.type.driver | masterThesis | - |
dc.type.status | info:eu-repo/semantics/publishedVersion | en_US |
dc.type.thesis | masterThesis | en_US |
dcterms.DCMIType | Text | - |
tuhh.dnb.status | domain | en_US |
item.grantfulltext | open | - |
item.cerifentitytype | Publications | - |
item.openairetype | Thesis | - |
item.openairecristype | http://purl.org/coar/resource_type/c_46ec | - |
item.fulltext | With Fulltext | - |
item.creatorOrcid | Schomacker, Thorben | - |
item.advisorGND | Tropmann-Frick, Marina | - |
item.languageiso639-1 | en | - |
item.creatorGND | Schomacker, Thorben | - |
Enthalten in den Sammlungen: | Theses |
Dateien zu dieser Ressource:
Datei | Beschreibung | Größe | Format | |
---|---|---|---|---|
MA_Simplification of German Narrative Documents.pdf | 1.9 MB | Adobe PDF | Öffnen/Anzeigen |
Feedback zu diesem Datensatz
Export
Alle Ressourcen in diesem Repository sind urheberrechtlich geschützt.