Volltextdatei(en) in REPOSIT vorhanden Open Access
DC ElementWertSprache
dc.contributor.advisorZukunft, Olaf-
dc.contributor.authorNour Alhuda, Hasan-
dc.date.accessioned2024-04-26T09:14:10Z-
dc.date.available2024-04-26T09:14:10Z-
dc.date.created2022-03-20-
dc.date.issued2024-04-26-
dc.identifier.urihttp://hdl.handle.net/20.500.12738/15632-
dc.description.abstractClustering-Analyse ist eines der Hauptforschungsgebiete der Künstlichen Intelligenz und Data-Minings. Ihre Anwendung auf Textdokumente nennt sich Dokument-Clustering, womit sich diese Arbeit insbesondere beschäftigt. Diese Art von Clustering bezeichnet die automatische Einteilung von Dokumenten in Clustern, sodass Dokumente innerhalb eines Clusters eine hohe Ähnlichkeit im Vergleich zu Dokumenten in anderen Clustern aufweisen. Das Fachgebiet hat eine wichtige Rolle in verschiedenen Bereichen wie Web-Mining, Suchmaschinen und Information-Retrieval gespielt. Im Rahmen dieser Arbeit werden zwei Clustering-Algorithmen, K-Means und DBScan, in Kombination mit drei verschiedenen Feature-Extraktionstechniken, TF-IDF, Word2Vec und BERT, eingesetzt bzw. untersucht. Die Leistung dieser Methoden wird anhand drei ausgewählter Datensätze unter Verwendung von Clustering-Bewertungsmetriken gemessen und entsprechend bewertet.de
dc.description.abstractClustering analysis is one of the main research areas of artificial intelligence and data mining. Its application on text documents is called document clustering, which is the main focus of this thesis. This type of clustering refers to the automatic classification of documents into clusters, so that documents within one cluster would have high similarity compared to documents in other clusters. This topic has played an important role in various fields such as web mining, search engines and information retrieval. In this work, two clustering algorithms, K-Means and DBScan, are used in combination with three different feature extraction techniques, TF-IDF, Word2Vec and BERT. The performance of these methods is measured and examined based on three preselected data sets using clustering evaluation metrics.en
dc.language.isodeen_US
dc.subjectKünstliche Intelligenzen_US
dc.subjectData-Miningen_US
dc.subjectDokument-Clusteringen_US
dc.subjectWeb-Miningen_US
dc.subjectSuchmaschinenen_US
dc.subjectInformation-Retrievalen_US
dc.subjectK-Meansen_US
dc.subjectDBScanen_US
dc.subjectTF-IDFen_US
dc.subjectWord2Vecen_US
dc.subjectBERTen_US
dc.subjectArtificial Intelligenceen_US
dc.subjectDocument Clusteringen_US
dc.subjectWeb Miningen_US
dc.subjectSearch Enginesen_US
dc.subjectInformation Retrievalen_US
dc.subject.ddc004: Informatiken_US
dc.titleEine vergleichende Untersuchung zum Clustering von Textdokumentende
dc.typeThesisen_US
openaire.rightsinfo:eu-repo/semantics/openAccessen_US
thesis.grantor.departmentFakultät Technik und Informatiken_US
thesis.grantor.departmentDepartment Informatiken_US
thesis.grantor.universityOrInstitutionHochschule für Angewandte Wissenschaften Hamburgen_US
tuhh.contributor.refereeTropmann-Frick, Marina-
tuhh.identifier.urnurn:nbn:de:gbv:18302-reposit-185193-
tuhh.oai.showtrueen_US
tuhh.publication.instituteFakultät Technik und Informatiken_US
tuhh.publication.instituteDepartment Informatiken_US
tuhh.type.opusBachelor Thesis-
dc.type.casraiSupervised Student Publication-
dc.type.dinibachelorThesis-
dc.type.driverbachelorThesis-
dc.type.statusinfo:eu-repo/semantics/publishedVersionen_US
dc.type.thesisbachelorThesisen_US
dcterms.DCMITypeText-
tuhh.dnb.statusdomainen_US
item.advisorGNDZukunft, Olaf-
item.creatorGNDNour Alhuda, Hasan-
item.languageiso639-1de-
item.cerifentitytypePublications-
item.openairecristypehttp://purl.org/coar/resource_type/c_46ec-
item.creatorOrcidNour Alhuda, Hasan-
item.fulltextWith Fulltext-
item.grantfulltextopen-
item.openairetypeThesis-
Enthalten in den Sammlungen:Theses
Dateien zu dieser Ressource:
Datei Beschreibung GrößeFormat
BA_Clustering von Textdokumenten.pdf4.06 MBAdobe PDFÖffnen/Anzeigen
Zur Kurzanzeige

Seitenansichten

81
checked on 25.11.2024

Download(s)

119
checked on 25.11.2024

Google ScholarTM

Prüfe

HAW Katalog

Prüfe

Feedback zu diesem Datensatz


Alle Ressourcen in diesem Repository sind urheberrechtlich geschützt.