Fulltext available Open Access
DC FieldValueLanguage
dc.contributor.advisorZukunft, Olaf-
dc.contributor.authorWischhusen, Jonathan-
dc.date.accessioned2024-01-12T08:25:44Z-
dc.date.available2024-01-12T08:25:44Z-
dc.date.created2021-12-23-
dc.date.issued2024-01-12-
dc.identifier.urihttp://hdl.handle.net/20.500.12738/14558-
dc.description.abstractAutomatisierte Textklassifikation ist für viele praktische Anwendungen ein aussichtsreiches Analyse- und Moderationsinstrument. In der Praxis steht Textklassifikation jedoch oft teuren Annotationskosten und einem Ungleichgewicht der Klassen in den Trainingsdaten gegenüber. Active Learning beschreibt ein Paradigma, dass die Kosten für die Annotation signifikant senken kann, indem über mehrere Iterationen geeignete Daten gezielt annotiert werden. In Verbindung mit vortrainierten Sprachmodellen, wie BERT und seinen Variationen, ist Active Learning bisher wenig untersucht. Diese Arbeit untersucht verschiedene Active Learning Methoden für BERT-Modelle unter dem Problem der Mehr-Klassen-Textklassifikation. Der Fokus liegt auf Szenarien mit praxisnahen Startmengen und ihre Auswirkung für vielfältige Datensätze. Die Ergebnisse zeigen, dass Discriminate Active Learning im Umfeld der Untersuchung als einzige Methode über die Modelle und Daten hinweg signifikant besser ist als der Zufall. Andere Methoden sind in der Regel nicht besser als der Zufall, außer in einigen praxisnahen Situationen. Die Arbeit gewährt ebenfalls einen Einblick in den Einsatz des Menschen als Orakel. Durch eine Benutzerstudie wird beobachtet, dass für ein kleines Annotationsbudget Menschen eine konstante Leistung zeigen und Domänenwissen auch bei einfachen Kategorien hilfreich ist.de
dc.description.abstractAutomated text classification is a promising analysis and moderation tool for many practical applications. In practice, text classification often faces expensive annotation costs and class imbalance in the training data. Active Learning describes a paradigm that can significantly reduce annotation costs by selectively annotating the most suitable data over multiple iterations. In conjunction with pre-trained language models, such as BERT and its variations, Active Learning has been little studied. This work investigates Active Learning for BERT models under the problem of multi-class text classification. The focus is on scenarios with practical warmstart sets and their impact for diverse datasets. The results show that Discriminate Active Learning is the only method that significantly outperforms the random baseline across models and datasets in the setting of the study. Other methods are outperfoming the baseline only for some real-world scenarios. The work also provides insight into the use of humans as an oracle. A user study concludes that humans show consistent performance over a small annotation budget and that domain knowledge is helpful even for simple categories.en
dc.language.isodeen_US
dc.subjectActive Learningen_US
dc.subjectBERTen_US
dc.subjectTextklassifikationen_US
dc.subject.ddc004: Informatiken_US
dc.titleUntersuchung von Active Learning Methoden für BERT-Modellede
dc.typeThesisen_US
openaire.rightsinfo:eu-repo/semantics/openAccessen_US
thesis.grantor.departmentFakultät Technik und Informatiken_US
thesis.grantor.departmentDepartment Informatiken_US
thesis.grantor.universityOrInstitutionHochschule für Angewandte Wissenschaften Hamburgen_US
tuhh.contributor.refereeSarstedt, Stefan-
tuhh.identifier.urnurn:nbn:de:gbv:18302-reposit-167956-
tuhh.oai.showtrueen_US
tuhh.publication.instituteFakultät Technik und Informatiken_US
tuhh.publication.instituteDepartment Informatiken_US
tuhh.type.opusMasterarbeit-
dc.type.casraiSupervised Student Publication-
dc.type.dinimasterThesis-
dc.type.drivermasterThesis-
dc.type.statusinfo:eu-repo/semantics/publishedVersionen_US
dc.type.thesismasterThesisen_US
dcterms.DCMITypeText-
tuhh.dnb.statusdomainen_US
item.openairecristypehttp://purl.org/coar/resource_type/c_46ec-
item.fulltextWith Fulltext-
item.grantfulltextopen-
item.openairetypeThesis-
item.creatorGNDWischhusen, Jonathan-
item.languageiso639-1de-
item.creatorOrcidWischhusen, Jonathan-
item.cerifentitytypePublications-
item.advisorGNDZukunft, Olaf-
Appears in Collections:Theses
Files in This Item:
File Description SizeFormat
Masterthesis.pdf1.65 MBAdobe PDFView/Open
Show simple item record

Page view(s)

102
checked on Jul 4, 2024

Download(s)

100
checked on Jul 4, 2024

Google ScholarTM

Check

HAW Katalog

Check

Note about this record


Items in REPOSIT are protected by copyright, with all rights reserved, unless otherwise indicated.