Volltextdatei(en) in REPOSIT vorhanden Open Access
Titel: Eine vergleichende Untersuchung zum Clustering von Textdokumenten
Sprache: Deutsch
Autorenschaft: Nour Alhuda, Hasan 
Schlagwörter: Künstliche Intelligenz; Data-Mining; Dokument-Clustering; Web-Mining; Suchmaschinen; Information-Retrieval; K-Means; DBScan; TF-IDF; Word2Vec; BERT; Artificial Intelligence; Document Clustering; Web Mining; Search Engines; Information Retrieval
Erscheinungsdatum: 26-Apr-2024
Zusammenfassung: 
Clustering-Analyse ist eines der Hauptforschungsgebiete der Künstlichen Intelligenz und Data-Minings. Ihre Anwendung auf Textdokumente nennt sich Dokument-Clustering, womit sich diese Arbeit insbesondere beschäftigt. Diese Art von Clustering bezeichnet die automatische Einteilung von Dokumenten in Clustern, sodass Dokumente innerhalb eines Clusters eine hohe Ähnlichkeit im Vergleich zu Dokumenten in anderen Clustern aufweisen. Das Fachgebiet hat eine wichtige Rolle in verschiedenen Bereichen wie Web-Mining, Suchmaschinen und Information-Retrieval gespielt. Im Rahmen dieser Arbeit werden zwei Clustering-Algorithmen, K-Means und DBScan, in Kombination mit drei verschiedenen Feature-Extraktionstechniken, TF-IDF, Word2Vec und BERT, eingesetzt bzw. untersucht. Die Leistung dieser Methoden wird anhand drei ausgewählter Datensätze unter Verwendung von Clustering-Bewertungsmetriken gemessen und entsprechend bewertet.

Clustering analysis is one of the main research areas of artificial intelligence and data mining. Its application on text documents is called document clustering, which is the main focus of this thesis. This type of clustering refers to the automatic classification of documents into clusters, so that documents within one cluster would have high similarity compared to documents in other clusters. This topic has played an important role in various fields such as web mining, search engines and information retrieval. In this work, two clustering algorithms, K-Means and DBScan, are used in combination with three different feature extraction techniques, TF-IDF, Word2Vec and BERT. The performance of these methods is measured and examined based on three preselected data sets using clustering evaluation metrics.
URI: http://hdl.handle.net/20.500.12738/15632
Einrichtung: Fakultät Technik und Informatik 
Department Informatik 
Dokumenttyp: Abschlussarbeit
Abschlussarbeitentyp: Bachelorarbeit
Hauptgutachter*in: Zukunft, Olaf 
Gutachter*in der Arbeit: Tropmann-Frick, Marina  
Enthalten in den Sammlungen:Theses

Dateien zu dieser Ressource:
Datei Beschreibung GrößeFormat
BA_Clustering von Textdokumenten.pdf4.06 MBAdobe PDFÖffnen/Anzeigen
Zur Langanzeige

Seitenansichten

81
checked on 25.11.2024

Download(s)

119
checked on 25.11.2024

Google ScholarTM

Prüfe

HAW Katalog

Prüfe

Feedback zu diesem Datensatz


Alle Ressourcen in diesem Repository sind urheberrechtlich geschützt.