Textähnlichkeit unter Verwendung von Ansätzen des maschinellen Lernens

Tarabih, Dina

Titel:	Textähnlichkeit unter Verwendung von Ansätzen des maschinellen Lernens
Sprache:	Deutsch
Autorenschaft:	Tarabih, Dina
Schlagwörter:	Text-Mining; Maschinelles Lernen; Computerlinguistik; Big-Data; Textähnlichkeit; Word2Vec; Doc2Vec; BERT; Kosinusähnlichkeit; Word Mover’s Distance; New York Times; Machine Learning; Natural Language Processing; Text Similarity; Cosine Similarity
Erscheinungsdatum:	20-Mai-2021
Zusammenfassung:	Das Internet hat zu einer Zunahme elektronischer Online-Dokumente geführt. Dies hat Internetnutzern aufgrund der Informationsexplosion erschwert, relevante und genaue Informationen zu finden. Heutzutage wurden Techniken und Methoden des Text-Minings, maschinellen Lernens und der Computerlinguistik eingesetzt, um Big-Data zu verarbeiten. Diese Arbeit beschäftigt sich insbesondere mit dem Problem der Textähnlichkeit, eine wachsende Anwendung der Verarbeitung natürlicher Sprache, zur Optimierung der Suche von Dokumenten. Dabei werden vier Kombinationen verschiedener Feature-Extraktionstechniken TF-IDF, Word2Vec, Doc2Vec und BERT untersucht. Zusätzlich werden zwei Ähnlichkeitsalgorithmen Kosinusähnlichkeit und Word Mover’s Distance zur Berechnung der Ähnlichkeitswerte eingesetzt. Diese Methoden werden anhand eines Datensatzes getestet, der 16.876 Artikel aus der New York Times-Tageszeitung enthält. Infolgedessen werden Hypothesen auf Basis von initialen Ergebnissen erstellt. Diese werden durch weitere Experimente zur Bewertung der Plausibilität und Zuverlässigkeit der erzielten Ergebnisse getestet. The Internet has led to an increase in electronic documents online. This has made it difficult for internet users to find relevant and accurate information due to the information explosion. Today, text mining, machine learning, and natural language processing techniques and methods have been used to process big data. This thesis deals in particular with the problem of text similarity, a growing application of natural language processing, for the optimisation of document search. Four combinations of different feature extraction techniques, TF-IDF, Word2Vec, Doc2Vec, and BERT, are examined. In addition, two similarity algorithms, Cosine Similarity and Word Mover’s Distance, are used to calculate the similarity values. These methods are tested on a data set containing 16,876 articles from the New York Times daily newspaper. As a result, hypotheses are created based on initial results. These are tested by further experiments to assess the plausibility and reliability of the results obtained.
URI:	http://hdl.handle.net/20.500.12738/14975
Einrichtung:	Fakultät Technik und Informatik Department Informatik
Dokumenttyp:	Abschlussarbeit
Abschlussarbeitentyp:	Bachelorarbeit
Betreuer*in:	Zukunft, Olaf
Gutachter*in:	Sarstedt, Stefan
Enthalten in den Sammlungen:	Theses