Detektion kleiner Objekte in Thermal- und Farb-Drohnenaufnahmen zur Verbesserung der Klassifikation von Baustellen

Wenzel, Niklas

Title:	Detektion kleiner Objekte in Thermal- und Farb-Drohnenaufnahmen zur Verbesserung der Klassifikation von Baustellen
Language:	German
Authors:	Wenzel, Niklas
Keywords:	Objektdetektion; Detektion kleiner Objekte; Generierung von Bildbeschreibungen; Thermalaufnahmen; Bildfusion; Drohnenaufnahmen; Baustellenklassifikation; Transformer-Architektur; YOLOv8; small object detection; caption generation; thermal imaging; image fusion; drone imaging; construction site classification; transformer-architectur
Issue Date:	25-Oct-2024
Abstract:	Die vorliegende Arbeit beschäftigt sich mit der Klassifizierung von multimodalen Drohnenaufnahmen. Ziel der Arbeit ist die Integration der Detektion kleiner Objekte in die Bildklassifikation zur Verbesserung der Bildklassifikation. Die Objektdetektion wurde mit YOLOv8 [33] und der Verwendung des Slicing Aided Hyper Inference (SAHI) [12] zur Verbesserung der Detektion kleiner Objekte realisiert. In diesem Anwendungsfall konnte diese Verbesserung jedoch nicht erreicht werden. Aufgrund der ungleichmäßigen Verteilung der Klassen konnten die Ergebnisse der Objektdetektion nur in wenigen Klassen auf die Validierungsdaten übertragen werden. Die Vorhersagen der Objektdetektion wurden in Textdaten umgewandelt und zusammen mit den fusionierten Thermal- und RGB-Daten in den Klassifikator eingegeben. Dieser verwendet eine multimodale Transformerarchitektur mit einem Vision-Encoder des Vision-Transformer (ViT) [19] und dem Universal Sentence Encoder (U.S.E.) [15]. Durch die Verwendung von Textdaten konnte die Bildeingangsgröße des Transformers mit 1024x1024 Pixeln so groß wie möglich gewählt werden und dennoch ein zuverlässiges Training ermöglicht werden. Dadurch und durch die Anwendung von Maßnahmen gegen Overfitting konnte eine Accuracy von 0,80 im Training und auf den modellfremden Validierungsdaten von 0,83 erreicht werden. Bei kleineren Eingangsgrößen kommt es zu einem Overfitting des jeweiligen Modells und zu einer schlechteren Klassifikation auf den Validierungsdaten. Kleine Objekte zu erkennen und in die Klassifikation einzubeziehen ermöglicht somit eine zuverlässige Klassifikation der Trainings- und Validierungsdaten. This thesis deals with the classification of multimodal drone images. The aim of the work is to integrate the detection of small objects into the image classification to improve image classification. The object detection was realised with YOLOv8 [33] and the use of the SAHI framework [12] to improve the detection of small objects. However, this improvement could not be achieved in this use case. Due to the uneven distribution of the classes, the results of the object detection could only be transferred to the validation data in a few classes. The predictions of the object detection were converted into text data and entered into the classifier together with the fused thermal and RGB data. This uses a multimodal transformer architecture with a vision encoder from the vision transformer [19] and the universal sentence encoder [15]. By using text data, the image input size of the transformer was chosen to be as large as possible 1024x1024 pixels and still allow reliable training. This and the application of measures against overfitting enabled an accuracy in training of 0,80 and on the non-model validation data of 0,83 to be achieved. Smaller input variables lead to an overfitting of the respective model and to a poorer classification on the validation data. Recognising small objects and including them in the classification thus enables reliable classification of the training and validation data.
URI:	https://hdl.handle.net/20.500.12738/16442
Institute:	Fakultät Technik und Informatik Department Informatik
Type:	Thesis
Thesis type:	Master Thesis
Advisor:	Tiedemann, Tim
Referee:	Stelldinger, Peer
Appears in Collections:	Theses