| Title: | AI-driven validation of citizen science data : Anomaly Detection of Bird Sightings with Machine Learning Models and Statistical Approaches | Language: | English | Authors: | Birker, Simon | Keywords: | Maschinelles Lernen; Unüberwachtes Lernen; Emergente Filter; Ornithologie; Outlier-Erkennung | Issue Date: | 7-Nov-2025 | Abstract: | Citizen-Science-Plattformen sind heute ein zentraler Bestandteil des Biodiversitätsmonitorings. Sie ermöglichen es Freiwilligen, Artenbeobachtungen mit bislang unerreichter räumlicher und zeitlicher Abdeckung zu erfassen. Die Verlässlichkeit dieser Daten hängt jedoch entscheidend von robusten Validierungsmechanismen ab. Da die Datenmengen kontinuierlich steigen, stößt die manuelle Expertenüberprüfung - die derzeit gängige Praxis - zunehmend an ihre Grenzen. Diese Arbeit untersucht zwei automatisierte Ansätze zur Unterstützung der Datenvalidierung im Kontext der europäischen Ornitho-Plattform: (1) statistisch definierte Emergent Filters und (2) unüberwachte Outlier Detection Models. Die Filter erweitern klassische Plausibilitätsprüfungen um zeitliche, räumliche und habitatbezogene Dimensionen. Die eingesetzten Machine-Learning-Modelle - erstmals in diesem Kontext angewendet - lernen artspezifische Verteilungsmuster und erkennen Auffälligkeiten anhand ihrer Abweichung von typischen Merkmalskombinationen. Beide Ansätze wurden an einem kuratierten Benchmark-Datensatz mit künstlich manipulierten Beobachtungen für 27 Arten evaluiert. Die quantitative Analyse zeigt, dass die unüberwachten Modelle die Filter in Bezug auf die F1-Scores klar übertreffen, insbesondere bei komplexeren Fehlertypen. Qualitatives Feedback von erfahrenen Ornithologen bestätigt zudem die Anwendbarkeit, Verständlichkeit und Nützlichkeit des Gesamtsystems. Die Ergebnisse zeigen außerdem artspezifische und merkmalsabhängige Unterschiede in der Detektionsleistung. Diese Arbeit liefert sowohl eine fallbezogene Bewertung der Integration automatisierter Validierung in den Ornitho-Workflow als auch allgemeine Hinweise für die Entwicklung vertrauenswürdiger Entscheidungsunterstützungssysteme im Bereich der ökologische Datenvalidierung. Citizen science platforms have become a important part of modern biodiversity monitoring by enabling volunteers to submit species sightings at unprecedented spatial and temporal scales. However, the reliability of such data critically depends on robust validation mechanisms. Manual expert verification - currently the norm in most platforms - is increasingly reaching its limits as data volumes continue to grow. This thesis investigates two automated approaches to support the validation of bird sighting data in the context of the European Ornitho platform: (1) statistically defined Emergent Filters and (2) unsupervised Outlier Detection Models. The Emergent Filters extend conventional ecological plausibility checks by incorporating temporal, spatial, and habitat-related dimensions. The Machine Learning models-applied for the first time in this context-learn species-specific distributions and identify implausible records based on their deviation from expected feature patterns. Both methods were evaluated on a curated benchmark dataset containing artificially manipulated sightings for 27 species. Quantitative evaluation shows that unsupervised models consistently outperform statistical filters in terms of F1-score, especially for complex error types. Qualitative feedback from expert ornithologists confirms the practical relevance, interpretability, and perceived usefulness of the combined system. The results also highlight species-specific and feature-specific sensitivities that influence detection performance. This work provides both a case study for the integration of automated validation into the Ornitho workflow and broader insights into designing trustworthy decision-support systems for ecological data validation. |
URI: | https://hdl.handle.net/20.500.12738/18364 | Institute: | Fakultät Technik und Informatik (ehemalig, aufgelöst 10.2025) Department Informatik (ehemalig, aufgelöst 10.2025) |
Type: | Thesis | Thesis type: | Master Thesis | Advisor: | Clemen, Thomas |
Referee: | Tropmann-Frick, Marina |
| Appears in Collections: | Theses |
Files in This Item:
| File | Description | Size | Format | |
|---|---|---|---|---|
| MA_AI-driven_validation_of_citizen_science_data.pdf | 2.36 MB | Adobe PDF | View/Open |
Note about this record
Export
Items in REPOSIT are protected by copyright, with all rights reserved, unless otherwise indicated.