Fulltext available Open Access
DC FieldValueLanguage
dc.contributor.advisorZukunft, Olaf-
dc.contributor.authorNour Alhuda, Hasan-
dc.date.accessioned2024-04-26T09:14:10Z-
dc.date.available2024-04-26T09:14:10Z-
dc.date.created2022-03-20-
dc.date.issued2024-04-26-
dc.identifier.urihttp://hdl.handle.net/20.500.12738/15632-
dc.description.abstractClustering-Analyse ist eines der Hauptforschungsgebiete der Künstlichen Intelligenz und Data-Minings. Ihre Anwendung auf Textdokumente nennt sich Dokument-Clustering, womit sich diese Arbeit insbesondere beschäftigt. Diese Art von Clustering bezeichnet die automatische Einteilung von Dokumenten in Clustern, sodass Dokumente innerhalb eines Clusters eine hohe Ähnlichkeit im Vergleich zu Dokumenten in anderen Clustern aufweisen. Das Fachgebiet hat eine wichtige Rolle in verschiedenen Bereichen wie Web-Mining, Suchmaschinen und Information-Retrieval gespielt. Im Rahmen dieser Arbeit werden zwei Clustering-Algorithmen, K-Means und DBScan, in Kombination mit drei verschiedenen Feature-Extraktionstechniken, TF-IDF, Word2Vec und BERT, eingesetzt bzw. untersucht. Die Leistung dieser Methoden wird anhand drei ausgewählter Datensätze unter Verwendung von Clustering-Bewertungsmetriken gemessen und entsprechend bewertet.de
dc.description.abstractClustering analysis is one of the main research areas of artificial intelligence and data mining. Its application on text documents is called document clustering, which is the main focus of this thesis. This type of clustering refers to the automatic classification of documents into clusters, so that documents within one cluster would have high similarity compared to documents in other clusters. This topic has played an important role in various fields such as web mining, search engines and information retrieval. In this work, two clustering algorithms, K-Means and DBScan, are used in combination with three different feature extraction techniques, TF-IDF, Word2Vec and BERT. The performance of these methods is measured and examined based on three preselected data sets using clustering evaluation metrics.en
dc.language.isodeen_US
dc.subjectKünstliche Intelligenzen_US
dc.subjectData-Miningen_US
dc.subjectDokument-Clusteringen_US
dc.subjectWeb-Miningen_US
dc.subjectSuchmaschinenen_US
dc.subjectInformation-Retrievalen_US
dc.subjectK-Meansen_US
dc.subjectDBScanen_US
dc.subjectTF-IDFen_US
dc.subjectWord2Vecen_US
dc.subjectBERTen_US
dc.subjectArtificial Intelligenceen_US
dc.subjectDocument Clusteringen_US
dc.subjectWeb Miningen_US
dc.subjectSearch Enginesen_US
dc.subjectInformation Retrievalen_US
dc.subject.ddc004: Informatiken_US
dc.titleEine vergleichende Untersuchung zum Clustering von Textdokumentende
dc.typeThesisen_US
openaire.rightsinfo:eu-repo/semantics/openAccessen_US
thesis.grantor.departmentFakultät Technik und Informatiken_US
thesis.grantor.departmentDepartment Informatiken_US
thesis.grantor.universityOrInstitutionHochschule für Angewandte Wissenschaften Hamburgen_US
tuhh.contributor.refereeTropmann-Frick, Marina-
tuhh.identifier.urnurn:nbn:de:gbv:18302-reposit-185193-
tuhh.oai.showtrueen_US
tuhh.publication.instituteFakultät Technik und Informatiken_US
tuhh.publication.instituteDepartment Informatiken_US
tuhh.type.opusBachelor Thesis-
dc.type.casraiSupervised Student Publication-
dc.type.dinibachelorThesis-
dc.type.driverbachelorThesis-
dc.type.statusinfo:eu-repo/semantics/publishedVersionen_US
dc.type.thesisbachelorThesisen_US
dcterms.DCMITypeText-
tuhh.dnb.statusdomainen_US
item.advisorGNDZukunft, Olaf-
item.creatorGNDNour Alhuda, Hasan-
item.languageiso639-1de-
item.cerifentitytypePublications-
item.openairecristypehttp://purl.org/coar/resource_type/c_46ec-
item.creatorOrcidNour Alhuda, Hasan-
item.fulltextWith Fulltext-
item.grantfulltextopen-
item.openairetypeThesis-
Appears in Collections:Theses
Files in This Item:
File Description SizeFormat
BA_Clustering von Textdokumenten.pdf4.06 MBAdobe PDFView/Open
Show simple item record

Page view(s)

81
checked on Nov 25, 2024

Download(s)

119
checked on Nov 25, 2024

Google ScholarTM

Check

HAW Katalog

Check

Note about this record


Items in REPOSIT are protected by copyright, with all rights reserved, unless otherwise indicated.