Eine vergleichende Untersuchung zum Clustering von Textdokumenten

Nour Alhuda, Hasan

Title:	Eine vergleichende Untersuchung zum Clustering von Textdokumenten
Language:	German
Authors:	Nour Alhuda, Hasan
Keywords:	Künstliche Intelligenz; Data-Mining; Dokument-Clustering; Web-Mining; Suchmaschinen; Information-Retrieval; K-Means; DBScan; TF-IDF; Word2Vec; BERT; Artificial Intelligence; Document Clustering; Web Mining; Search Engines; Information Retrieval
Issue Date:	20-Mar-2022
Abstract:	Clustering-Analyse ist eines der Hauptforschungsgebiete der Künstlichen Intelligenz und Data-Minings. Ihre Anwendung auf Textdokumente nennt sich Dokument-Clustering, womit sich diese Arbeit insbesondere beschäftigt. Diese Art von Clustering bezeichnet die automatische Einteilung von Dokumenten in Clustern, sodass Dokumente innerhalb eines Clusters eine hohe Ähnlichkeit im Vergleich zu Dokumenten in anderen Clustern aufweisen. Das Fachgebiet hat eine wichtige Rolle in verschiedenen Bereichen wie Web-Mining, Suchmaschinen und Information-Retrieval gespielt. Im Rahmen dieser Arbeit werden zwei Clustering-Algorithmen, K-Means und DBScan, in Kombination mit drei verschiedenen Feature-Extraktionstechniken, TF-IDF, Word2Vec und BERT, eingesetzt bzw. untersucht. Die Leistung dieser Methoden wird anhand drei ausgewählter Datensätze unter Verwendung von Clustering-Bewertungsmetriken gemessen und entsprechend bewertet. Clustering analysis is one of the main research areas of artificial intelligence and data mining. Its application on text documents is called document clustering, which is the main focus of this thesis. This type of clustering refers to the automatic classification of documents into clusters, so that documents within one cluster would have high similarity compared to documents in other clusters. This topic has played an important role in various fields such as web mining, search engines and information retrieval. In this work, two clustering algorithms, K-Means and DBScan, are used in combination with three different feature extraction techniques, TF-IDF, Word2Vec and BERT. The performance of these methods is measured and examined based on three preselected data sets using clustering evaluation metrics.
URI:	http://hdl.handle.net/20.500.12738/15632
Institute:	Fakultät Technik und Informatik Department Informatik
Type:	Thesis
Thesis type:	Bachelor Thesis
Advisor:	Zukunft, Olaf
Referee:	Tropmann-Frick, Marina
Appears in Collections:	Theses