Volltextdatei(en) in REPOSIT vorhanden Open Access
DC ElementWertSprache
dc.contributor.advisorTiedemann, Tim-
dc.contributor.authorWenzel, Niklas-
dc.date.accessioned2024-10-25T12:15:48Z-
dc.date.available2024-10-25T12:15:48Z-
dc.date.created2024-02-29-
dc.date.issued2024-10-25-
dc.identifier.urihttps://hdl.handle.net/20.500.12738/16442-
dc.description.abstractDie vorliegende Arbeit beschäftigt sich mit der Klassifizierung von multimodalen Drohnenaufnahmen. Ziel der Arbeit ist die Integration der Detektion kleiner Objekte in die Bildklassifikation zur Verbesserung der Bildklassifikation. Die Objektdetektion wurde mit YOLOv8 [33] und der Verwendung des Slicing Aided Hyper Inference (SAHI) [12] zur Verbesserung der Detektion kleiner Objekte realisiert. In diesem Anwendungsfall konnte diese Verbesserung jedoch nicht erreicht werden. Aufgrund der ungleichmäßigen Verteilung der Klassen konnten die Ergebnisse der Objektdetektion nur in wenigen Klassen auf die Validierungsdaten übertragen werden. Die Vorhersagen der Objektdetektion wurden in Textdaten umgewandelt und zusammen mit den fusionierten Thermal- und RGB-Daten in den Klassifikator eingegeben. Dieser verwendet eine multimodale Transformerarchitektur mit einem Vision-Encoder des Vision-Transformer (ViT) [19] und dem Universal Sentence Encoder (U.S.E.) [15]. Durch die Verwendung von Textdaten konnte die Bildeingangsgröße des Transformers mit 1024x1024 Pixeln so groß wie möglich gewählt werden und dennoch ein zuverlässiges Training ermöglicht werden. Dadurch und durch die Anwendung von Maßnahmen gegen Overfitting konnte eine Accuracy von 0,80 im Training und auf den modellfremden Validierungsdaten von 0,83 erreicht werden. Bei kleineren Eingangsgrößen kommt es zu einem Overfitting des jeweiligen Modells und zu einer schlechteren Klassifikation auf den Validierungsdaten. Kleine Objekte zu erkennen und in die Klassifikation einzubeziehen ermöglicht somit eine zuverlässige Klassifikation der Trainings- und Validierungsdaten.de
dc.description.abstractThis thesis deals with the classification of multimodal drone images. The aim of the work is to integrate the detection of small objects into the image classification to improve image classification. The object detection was realised with YOLOv8 [33] and the use of the SAHI framework [12] to improve the detection of small objects. However, this improvement could not be achieved in this use case. Due to the uneven distribution of the classes, the results of the object detection could only be transferred to the validation data in a few classes. The predictions of the object detection were converted into text data and entered into the classifier together with the fused thermal and RGB data. This uses a multimodal transformer architecture with a vision encoder from the vision transformer [19] and the universal sentence encoder [15]. By using text data, the image input size of the transformer was chosen to be as large as possible 1024x1024 pixels and still allow reliable training. This and the application of measures against overfitting enabled an accuracy in training of 0,80 and on the non-model validation data of 0,83 to be achieved. Smaller input variables lead to an overfitting of the respective model and to a poorer classification on the validation data. Recognising small objects and including them in the classification thus enables reliable classification of the training and validation data.en
dc.language.isodeen_US
dc.subjectObjektdetektionen_US
dc.subjectDetektion kleiner Objekteen_US
dc.subjectGenerierung von Bildbeschreibungenen_US
dc.subjectThermalaufnahmenen_US
dc.subjectBildfusionen_US
dc.subjectDrohnenaufnahmenen_US
dc.subjectBaustellenklassifikationen_US
dc.subjectTransformer-Architekturen_US
dc.subjectYOLOv8en_US
dc.subjectsmall object detectionen_US
dc.subjectcaption generationen_US
dc.subjectthermal imagingen_US
dc.subjectimage fusionen_US
dc.subjectdrone imagingen_US
dc.subjectconstruction site classificationen_US
dc.subjecttransformer-architecturen_US
dc.subject.ddc004: Informatiken_US
dc.titleDetektion kleiner Objekte in Thermal- und Farb-Drohnenaufnahmen zur Verbesserung der Klassifikation von Baustellende
dc.typeThesisen_US
openaire.rightsinfo:eu-repo/semantics/openAccessen_US
thesis.grantor.departmentFakultät Technik und Informatiken_US
thesis.grantor.departmentDepartment Informatiken_US
thesis.grantor.universityOrInstitutionHochschule für Angewandte Wissenschaften Hamburgen_US
tuhh.contributor.refereeStelldinger, Peer-
tuhh.identifier.urnurn:nbn:de:gbv:18302-reposit-196378-
tuhh.oai.showtrueen_US
tuhh.publication.instituteFakultät Technik und Informatiken_US
tuhh.publication.instituteDepartment Informatiken_US
tuhh.type.opusMasterarbeit-
dc.type.casraiSupervised Student Publication-
dc.type.dinimasterThesis-
dc.type.drivermasterThesis-
dc.type.statusinfo:eu-repo/semantics/publishedVersionen_US
dc.type.thesismasterThesisen_US
dcterms.DCMITypeText-
tuhh.dnb.statusdomainen_US
item.advisorGNDTiedemann, Tim-
item.creatorGNDWenzel, Niklas-
item.languageiso639-1de-
item.cerifentitytypePublications-
item.openairecristypehttp://purl.org/coar/resource_type/c_46ec-
item.creatorOrcidWenzel, Niklas-
item.fulltextWith Fulltext-
item.grantfulltextopen-
item.openairetypeThesis-
Enthalten in den Sammlungen:Theses
Dateien zu dieser Ressource:
Zur Kurzanzeige

Seitenansichten

50
checked on 23.11.2024

Download(s)

30
checked on 23.11.2024

Google ScholarTM

Prüfe

HAW Katalog

Prüfe

Feedback zu diesem Datensatz


Alle Ressourcen in diesem Repository sind urheberrechtlich geschützt.