Textähnlichkeit unter Verwendung von Ansätzen des maschinellen Lernens

Tarabih, Dina

Title:	Textähnlichkeit unter Verwendung von Ansätzen des maschinellen Lernens
Language:	German
Authors:	Tarabih, Dina
Keywords:	Text-Mining; Maschinelles Lernen; Computerlinguistik; Big-Data; Textähnlichkeit; Word2Vec; Doc2Vec; BERT; Kosinusähnlichkeit; Word Mover’s Distance; New York Times; Machine Learning; Natural Language Processing; Text Similarity; Cosine Similarity
Issue Date:	20-May-2021
Abstract:	Das Internet hat zu einer Zunahme elektronischer Online-Dokumente geführt. Dies hat Internetnutzern aufgrund der Informationsexplosion erschwert, relevante und genaue Informationen zu finden. Heutzutage wurden Techniken und Methoden des Text-Minings, maschinellen Lernens und der Computerlinguistik eingesetzt, um Big-Data zu verarbeiten. Diese Arbeit beschäftigt sich insbesondere mit dem Problem der Textähnlichkeit, eine wachsende Anwendung der Verarbeitung natürlicher Sprache, zur Optimierung der Suche von Dokumenten. Dabei werden vier Kombinationen verschiedener Feature-Extraktionstechniken TF-IDF, Word2Vec, Doc2Vec und BERT untersucht. Zusätzlich werden zwei Ähnlichkeitsalgorithmen Kosinusähnlichkeit und Word Mover’s Distance zur Berechnung der Ähnlichkeitswerte eingesetzt. Diese Methoden werden anhand eines Datensatzes getestet, der 16.876 Artikel aus der New York Times-Tageszeitung enthält. Infolgedessen werden Hypothesen auf Basis von initialen Ergebnissen erstellt. Diese werden durch weitere Experimente zur Bewertung der Plausibilität und Zuverlässigkeit der erzielten Ergebnisse getestet. The Internet has led to an increase in electronic documents online. This has made it difficult for internet users to find relevant and accurate information due to the information explosion. Today, text mining, machine learning, and natural language processing techniques and methods have been used to process big data. This thesis deals in particular with the problem of text similarity, a growing application of natural language processing, for the optimisation of document search. Four combinations of different feature extraction techniques, TF-IDF, Word2Vec, Doc2Vec, and BERT, are examined. In addition, two similarity algorithms, Cosine Similarity and Word Mover’s Distance, are used to calculate the similarity values. These methods are tested on a data set containing 16,876 articles from the New York Times daily newspaper. As a result, hypotheses are created based on initial results. These are tested by further experiments to assess the plausibility and reliability of the results obtained.
URI:	http://hdl.handle.net/20.500.12738/14975
Institute:	Fakultät Technik und Informatik Department Informatik
Type:	Thesis
Thesis type:	Bachelor Thesis
Advisor:	Zukunft, Olaf
Referee:	Sarstedt, Stefan
Appears in Collections:	Theses