Fulltext available Open Access
Title: Merkmalsextraktion durch LSTM-Autoencoder am Beispiel von Aerosol-Rückstreuprofilen aus LIDAR-Ceilometern
Language: German
Authors: Stein-Cadenbach, Matteo 
Keywords: Merkmalsextraktion; LSTM; Autoencoder; VAE; Deep-Clustering; Aerosol- Rückstreuprofile; Mustererkennung; Deep-Learning; Zufällige Zeitreihensegmentierung; Feature extraction; Aerosol backscatter profiles; Pattern recognition; Random time-series segmentation
Issue Date: 1-Nov-2023
Abstract: 
Durch Messungen vom deutschen Wetterdienst ist ein kontinuierlicher Datenstrom mit den Eigenschaften von Wetterphänomenen gegeben. Diese Phänomene sind von variabler Dauer und erscheinen zu unvorhersehbaren Zeitpunkten. Eine statische Fensterbreite zur Merkmalsextraktion durch Autoencoder erzeugt keine optimalen Segmente für die unüberwachte Detektion und Klassifikation der Phänomene. Die Klassifikation muss aufgrund fehlender Labels über ein Clustering erfolgen. Sie könnte durch eine unbekannte optimale Segmentierung des Datenstroms begünstigt werden. Das Ziel der vorliegenden Arbeit ist die Untersuchung der Eignung von LSTMAutoencodern für die Merkmalsextraktion unter einer Segmentierung mit variablen Fensterbreiten. Hierbei soll ein neuartiger Lösungsansatz als Platzhalter für die unbekannte optimale Segmentierung genutzt werden. Der Ansatz besteht aus der Abtastung des Datensatzes mit zufälligen, aber gleichverteilten Fensterbreiten. Für eine überwachte Messung der Clusterqualität wurde ein gelabelter künstlicher Datensatz mit den für die Untersuchung notwendigen Eigenschaften der realen Daten hergestellt. Ein Prozess wurde entwickelt, um mithilfe der Labels eine ideale Partitionierung der Segmente zu bilden. Um zu überprüfen, dass die neuartige Segmentierung eine Annäherung an eine optimale Segmentierung darstellt, wurde sie einer statischen Segmentierung gegenübergestellt. Zuletzt wurden implementierte Varianten von LSTMAutoencodern mit Clustering-Verfahren angewandt und miteinander verglichen. Die Ergebnisse zeigen bessere Kennzahlen für die neuartige Segmentierung. Außerdem zeigen sie, dass bei Wahl unterschiedlicher maximaler Segmentbreiten für die Gleichverteilung eine stabile Clusterqualität gewährleistet ist, während dies bei Wahl unterschiedlicher statischer Segmentbreiten nicht der Fall ist. Im Vergleich der Architekturvarianten ist festzustellen, dass ein VAE mit klassischen LSTM-Schichten zur Kodierung der Segmente am besten geeignet ist. Weiterführende Forschung ist hinsichtlich alternativer Clustering-Methoden und einer gezielten Segmentierung vorzunehmen.

A continuous data stream with properties of weather phenomenons of variable duration and unpredictable appearance is given by measurements by the German Meteorological Service. The usage of a static window length for an Autoencoder-based feature extraction does not produce optimal segments in order to detect and classify the phenomenons in an unsupervised manner. The classification has to be done through clustering due to missing labels. It could be improved by an unknown optimal segmentation of the data stream. Goal of this thesis is to investigate the suitability of LSTM autoencoders for the feature extraction under usage of a segmentation with variabel window lengths. Thereby a novel approach shall be used as placeholder for the unknown optimal segmentation. The data stream is segmented by using a sliding window with a random, but uniformly distributed window length. In order to measure the clustering quality in a supervised way, a labeled synthetic dataset was created according to the mentioned real data properties. A process was defined to build an ideal partitioning of the segments for the calculation of rating indices. To verify that the novel segmentation method can serve as a valid placeholder for the optimal segmentation, it was compared to a segmentation with static window length. At last, implemented variants of LSTM autoencoder combined with clustering were applied and compared. The results show better ratings for the new segmentation method. Furthermore, they show a stable clustering quality picking different maximal segment lengths for the uniform distribution. In contrast, the clustering quality differs highly when picking different static segment lengths. The comparison of the architecture variants shows that a VAE with conventional LSTM layers is most suitable for encoding the segments. Further research could be done by using other clustering techniques and applying systematic segmentation methods.
URI: http://hdl.handle.net/20.500.12738/14310
Institute: Department Informatik 
Fakultät Technik und Informatik 
Type: Thesis
Thesis type: Bachelor Thesis
Advisor: Neitzke, Michael 
Referee: Steffens, Ulrike 
Appears in Collections:Theses

Files in This Item:
File Description SizeFormat
Bachelorthesis_Matteo_Stein-Cadenbach_geschwärzt.pdf2.16 MBAdobe PDFView/Open
Show full item record

Page view(s)

148
checked on Jul 5, 2024

Download(s)

237
checked on Jul 5, 2024

Google ScholarTM

Check

HAW Katalog

Check

Note about this record


Items in REPOSIT are protected by copyright, with all rights reserved, unless otherwise indicated.