Volltextdatei(en) in REPOSIT vorhanden Open Access
Titel: Textähnlichkeit unter Verwendung von Ansätzen des maschinellen Lernens
Sprache: Deutsch
Autorenschaft: Tarabih, Dina 
Schlagwörter: Text-Mining; Maschinelles Lernen; Computerlinguistik; Big-Data; Textähnlichkeit; Word2Vec; Doc2Vec; BERT; Kosinusähnlichkeit; Word Mover’s Distance; New York Times; Machine Learning; Natural Language Processing; Text Similarity; Cosine Similarity
Erscheinungsdatum: 1-Mär-2024
Zusammenfassung: 
Das Internet hat zu einer Zunahme elektronischer Online-Dokumente geführt. Dies hat Internetnutzern aufgrund der Informationsexplosion erschwert, relevante und genaue Informationen zu finden. Heutzutage wurden Techniken und Methoden des Text-Minings, maschinellen Lernens und der Computerlinguistik eingesetzt, um Big-Data zu verarbeiten. Diese Arbeit beschäftigt sich insbesondere mit dem Problem der Textähnlichkeit, eine wachsende Anwendung der Verarbeitung natürlicher Sprache, zur Optimierung der Suche von Dokumenten. Dabei werden vier Kombinationen verschiedener Feature-Extraktionstechniken TF-IDF, Word2Vec, Doc2Vec und BERT untersucht. Zusätzlich werden zwei Ähnlichkeitsalgorithmen Kosinusähnlichkeit und Word Mover’s Distance zur Berechnung der Ähnlichkeitswerte eingesetzt. Diese Methoden werden anhand eines Datensatzes getestet, der 16.876 Artikel aus der New York Times-Tageszeitung enthält. Infolgedessen werden Hypothesen auf Basis von initialen Ergebnissen erstellt. Diese werden durch weitere Experimente zur Bewertung der Plausibilität und Zuverlässigkeit der erzielten Ergebnisse getestet.

The Internet has led to an increase in electronic documents online. This has made it difficult for internet users to find relevant and accurate information due to the information explosion. Today, text mining, machine learning, and natural language processing techniques and methods have been used to process big data. This thesis deals in particular with the problem of text similarity, a growing application of natural language processing, for the optimisation of document search. Four combinations of different feature extraction techniques, TF-IDF, Word2Vec, Doc2Vec, and BERT, are examined. In addition, two similarity algorithms, Cosine Similarity and Word Mover’s Distance, are used to calculate the similarity values. These methods are tested on a data set containing 16,876 articles from the New York Times daily newspaper. As a result, hypotheses are created based on initial results. These are tested by further experiments to assess the plausibility and reliability of the results obtained.
URI: http://hdl.handle.net/20.500.12738/14975
Einrichtung: Fakultät Technik und Informatik 
Department Informatik 
Dokumenttyp: Abschlussarbeit
Abschlussarbeitentyp: Bachelorarbeit
Hauptgutachter*in: Zukunft, Olaf 
Gutachter*in der Arbeit: Sarstedt, Stefan 
Enthalten in den Sammlungen:Theses

Dateien zu dieser Ressource:
Datei Beschreibung GrößeFormat
BA_Maschinelles Lernen.pdf3.3 MBAdobe PDFÖffnen/Anzeigen
Zur Langanzeige

Seitenansichten

84
checked on 04.07.2024

Download(s)

113
checked on 04.07.2024

Google ScholarTM

Prüfe

HAW Katalog

Prüfe

Feedback zu diesem Datensatz


Alle Ressourcen in diesem Repository sind urheberrechtlich geschützt.