Fulltext available Open Access
Title: Eine vergleichende Untersuchung zum Clustering von Textdokumenten
Language: German
Authors: Nour Alhuda, Hasan 
Keywords: Künstliche Intelligenz; Data-Mining; Dokument-Clustering; Web-Mining; Suchmaschinen; Information-Retrieval; K-Means; DBScan; TF-IDF; Word2Vec; BERT; Artificial Intelligence; Document Clustering; Web Mining; Search Engines; Information Retrieval
Issue Date: 26-Apr-2024
Abstract: 
Clustering-Analyse ist eines der Hauptforschungsgebiete der Künstlichen Intelligenz und Data-Minings. Ihre Anwendung auf Textdokumente nennt sich Dokument-Clustering, womit sich diese Arbeit insbesondere beschäftigt. Diese Art von Clustering bezeichnet die automatische Einteilung von Dokumenten in Clustern, sodass Dokumente innerhalb eines Clusters eine hohe Ähnlichkeit im Vergleich zu Dokumenten in anderen Clustern aufweisen. Das Fachgebiet hat eine wichtige Rolle in verschiedenen Bereichen wie Web-Mining, Suchmaschinen und Information-Retrieval gespielt. Im Rahmen dieser Arbeit werden zwei Clustering-Algorithmen, K-Means und DBScan, in Kombination mit drei verschiedenen Feature-Extraktionstechniken, TF-IDF, Word2Vec und BERT, eingesetzt bzw. untersucht. Die Leistung dieser Methoden wird anhand drei ausgewählter Datensätze unter Verwendung von Clustering-Bewertungsmetriken gemessen und entsprechend bewertet.

Clustering analysis is one of the main research areas of artificial intelligence and data mining. Its application on text documents is called document clustering, which is the main focus of this thesis. This type of clustering refers to the automatic classification of documents into clusters, so that documents within one cluster would have high similarity compared to documents in other clusters. This topic has played an important role in various fields such as web mining, search engines and information retrieval. In this work, two clustering algorithms, K-Means and DBScan, are used in combination with three different feature extraction techniques, TF-IDF, Word2Vec and BERT. The performance of these methods is measured and examined based on three preselected data sets using clustering evaluation metrics.
URI: http://hdl.handle.net/20.500.12738/15632
Institute: Fakultät Technik und Informatik 
Department Informatik 
Type: Thesis
Thesis type: Bachelor Thesis
Advisor: Zukunft, Olaf 
Referee: Tropmann-Frick, Marina  
Appears in Collections:Theses

Files in This Item:
File Description SizeFormat
BA_Clustering von Textdokumenten.pdf4.06 MBAdobe PDFView/Open
Show full item record

Page view(s)

24
checked on May 7, 2024

Download(s)

18
checked on May 7, 2024

Google ScholarTM

Check

HAW Katalog

Check

Note about this record


Items in REPOSIT are protected by copyright, with all rights reserved, unless otherwise indicated.