Towards German Abstractive Text Summarization using Deep Learning

Nitsche, Matthias

License:
Title:	Towards German Abstractive Text Summarization using Deep Learning
Language:	German
Authors:	Nitsche, Matthias
Keywords:	Neural Networks; NLP; Summarization; Transformers; Language Modelling; ELMo; BERT; Transfer Learning
Issue Date:	2018
Abstract:	Text summarization is an established sequence learning problem divided into extractive and abstractive models. While extractive models learn to only rank words and sentences, abstractive models learn to generate language as well. The great success of deep learning algorithms on sequence learning tasks led to an increase in sequence to sequence learning algorithms with an attention mechanism. At the same time, the research area around transfer learning, transferring knowledge different domains, languages and tasks, increased over the past years. Word embeddings like GloVe or Word2Vec, are still useful for practical purposes, but were overtaken by a new generation of language models. In this thesis we explore two of the most prominent language models named ELMo and BERT, applying them to the extractive summarization task. We contribute a new ensemble model between abstractive and extractive summarization achieving, a new state-of-the-art on the English CNN/DM dataset. Instead of only working with an academic English dataset, we introduce a new dataset in German from the Deutsche Presse Agentur (DPA). This poses a challenge since real world datasets in German have less available resources through pretrained language models and inhibit more noise. We establish several abstractive and extractive summarization baselines. Textzusammenfassung ist ein etabliertes Sequenzproblem, unterschieden durch extraktive und abstrahierende Modelle. Extraktive Modelle lernen, Wörter und Sätze zu ordnen, wobei irrelevante Informationen eliminiert werden. Bei abstrahierenden Modellen kommt zusätzlich die Aufgabe der Sprachgenerierung hinzu. Durch den großen Erfolg von Deep Learning Methoden nahmen sequence-to-sequence Algorithmen zu, insbesondere mit dem sogenannten "Attention"-Mechanismus. Hinzu kommt ein größerer Fokus auf Wissenstransfer zwischen verschiedenen Domänen, Sprachen und unterschiedlichen Aufgaben. Word Embeddings wie GloVe oder Word2Vec sind nach wie vor nützlich, wurden aber durch eine neue Generation von Sprachmodellen abgelöst. In dieser Arbeit untersuchen wir zwei der bekanntesten Sprachmodelle namens ELMo und BERT und wenden sie auf die extraktive Zusammenfassung an. Wir bringen ein neues Ensemble-Modell zwischen abstrahierender und extraktiver Zusammenfassung ein, das einen neuen Stand der Technik auf dem englischen CNN/DM-Datensatz erreicht. Anstatt nur mit einem akademischen englischen Datensatz zu arbeiten, führen wir zusätzlich einen neuartigen Datensatz in deutscher Sprache ein, bereitgestellt von der Deutschen Presse Agentur (DPA). Dies stellt eine Herausforderung dar, da reale Datensätze in deutscher Sprache über weniger verfügbare Ressourcen durch vortrainierte Sprachmodelle verfügen und mehr Rauschen beinhaltet.
URI:	http://hdl.handle.net/20.500.12738/9137
Institute:	Department Informatik
Type:	Thesis
Thesis type:	Master Thesis
Advisor:	von Luck, Kai
Referee:	Tropmann-Frick, Marina
Appears in Collections:	Theses