Fulltext available Open Access
DC FieldValueLanguage
dc.contributor.advisorZukunft, Olaf-
dc.contributor.authorTarabih, Dina-
dc.date.accessioned2024-03-01T14:03:35Z-
dc.date.available2024-03-01T14:03:35Z-
dc.date.created2021-05-20-
dc.date.issued2024-03-01-
dc.identifier.urihttp://hdl.handle.net/20.500.12738/14975-
dc.description.abstractDas Internet hat zu einer Zunahme elektronischer Online-Dokumente geführt. Dies hat Internetnutzern aufgrund der Informationsexplosion erschwert, relevante und genaue Informationen zu finden. Heutzutage wurden Techniken und Methoden des Text-Minings, maschinellen Lernens und der Computerlinguistik eingesetzt, um Big-Data zu verarbeiten. Diese Arbeit beschäftigt sich insbesondere mit dem Problem der Textähnlichkeit, eine wachsende Anwendung der Verarbeitung natürlicher Sprache, zur Optimierung der Suche von Dokumenten. Dabei werden vier Kombinationen verschiedener Feature-Extraktionstechniken TF-IDF, Word2Vec, Doc2Vec und BERT untersucht. Zusätzlich werden zwei Ähnlichkeitsalgorithmen Kosinusähnlichkeit und Word Mover’s Distance zur Berechnung der Ähnlichkeitswerte eingesetzt. Diese Methoden werden anhand eines Datensatzes getestet, der 16.876 Artikel aus der New York Times-Tageszeitung enthält. Infolgedessen werden Hypothesen auf Basis von initialen Ergebnissen erstellt. Diese werden durch weitere Experimente zur Bewertung der Plausibilität und Zuverlässigkeit der erzielten Ergebnisse getestet.de
dc.description.abstractThe Internet has led to an increase in electronic documents online. This has made it difficult for internet users to find relevant and accurate information due to the information explosion. Today, text mining, machine learning, and natural language processing techniques and methods have been used to process big data. This thesis deals in particular with the problem of text similarity, a growing application of natural language processing, for the optimisation of document search. Four combinations of different feature extraction techniques, TF-IDF, Word2Vec, Doc2Vec, and BERT, are examined. In addition, two similarity algorithms, Cosine Similarity and Word Mover’s Distance, are used to calculate the similarity values. These methods are tested on a data set containing 16,876 articles from the New York Times daily newspaper. As a result, hypotheses are created based on initial results. These are tested by further experiments to assess the plausibility and reliability of the results obtained.en
dc.language.isodeen_US
dc.subjectText-Miningen_US
dc.subjectMaschinelles Lernenen_US
dc.subjectComputerlinguistiken_US
dc.subjectBig-Dataen_US
dc.subjectTextähnlichkeiten_US
dc.subjectWord2Vecen_US
dc.subjectDoc2Vecen_US
dc.subjectBERTen_US
dc.subjectKosinusähnlichkeiten_US
dc.subjectWord Mover’s Distanceen_US
dc.subjectNew York Timesen_US
dc.subjectMachine Learningen_US
dc.subjectNatural Language Processingen_US
dc.subjectText Similarityen_US
dc.subjectCosine Similarityen_US
dc.subject.ddc004: Informatiken_US
dc.titleTextähnlichkeit unter Verwendung von Ansätzen des maschinellen Lernensde
dc.typeThesisen_US
openaire.rightsinfo:eu-repo/semantics/openAccessen_US
thesis.grantor.departmentFakultät Technik und Informatiken_US
thesis.grantor.departmentDepartment Informatiken_US
thesis.grantor.universityOrInstitutionHochschule für Angewandte Wissenschaften Hamburgen_US
tuhh.contributor.refereeSarstedt, Stefan-
tuhh.identifier.urnurn:nbn:de:gbv:18302-reposit-181163-
tuhh.oai.showtrueen_US
tuhh.publication.instituteFakultät Technik und Informatiken_US
tuhh.publication.instituteDepartment Informatiken_US
tuhh.type.opusBachelor Thesis-
dc.type.casraiSupervised Student Publication-
dc.type.dinibachelorThesis-
dc.type.driverbachelorThesis-
dc.type.statusinfo:eu-repo/semantics/publishedVersionen_US
dc.type.thesisbachelorThesisen_US
dcterms.DCMITypeText-
tuhh.dnb.statusdomainen_US
item.openairecristypehttp://purl.org/coar/resource_type/c_46ec-
item.fulltextWith Fulltext-
item.grantfulltextopen-
item.openairetypeThesis-
item.creatorGNDTarabih, Dina-
item.languageiso639-1de-
item.creatorOrcidTarabih, Dina-
item.cerifentitytypePublications-
item.advisorGNDZukunft, Olaf-
Appears in Collections:Theses
Files in This Item:
File Description SizeFormat
BA_Maschinelles Lernen.pdf3.3 MBAdobe PDFView/Open
Show simple item record

Page view(s)

84
checked on Jul 4, 2024

Download(s)

113
checked on Jul 4, 2024

Google ScholarTM

Check

HAW Katalog

Check

Note about this record


Items in REPOSIT are protected by copyright, with all rights reserved, unless otherwise indicated.