
Title: | Validation of Crowdsourced Apartment Data for Data Veracity | Language: | English | Authors: | Havrylenko, Ivan | Keywords: | OpenStreetMap; Geodata; Nominatim; Validierung; Crowdsourcing; Überwachtes Lernen; Unüberwachtes Lernen; K-Means; Mehrdimensionale Normalverteilung; Multivariate Normal Distribution | Issue Date: | 5-Feb-2025 | Abstract: | Ein Problem beim Crowdsourcing von Daten besteht darin, sicherzustellen, dass anonyme Nutzer nicht versehentlich oder absichtlich falsche Angaben machen. Für die Vorhaben, für die die Daten ursprünglich erhoben wurden, ist daher eine gut funktionierende Methode, zur Validierung der Nutzerinformationen, unerlässlich. In dieser Arbeit werden verschiedene Datenvalidierungstechniken für Crowdsourced-Daten über die Wohnsituation von Bürgern der Stadt Hamburg, Deutschland, untersucht. Die Ergebnisse dieser Arbeit sind von besonderem Interesse für die lokale Initiative "Hamburg Enteignet", die u.a. Tranzparenz für den aktuellen Hamburger Wohnungsmarkt schaffen will. Um sicherzustellen, dass die bereitgestellten Wohnungsdaten (Adresse, Kaltmiete und Fläche) mit hoher Wahrscheinlichkeit aus einer realen Wohnung in Hamburg stammen und nicht gefälscht sind, wurden verschiedene Ansätze zur Datenvalidierung eingesetzt. Die Wohnungsadressen wurden durch Abgleich der vom Nutzer bereitgestellten Daten mit den offenen APIs Nominatim und OpenStreetMap validiert. Für Kaltmiete und Wohnungsfläche wurden K-Means-Clustering und schwellenwertbasierte Ansätze unter Verwendung der Standardabweichung sowie einer multivariaten Normalverteilung berücksichtigt. Durch die Kombination von Nominatim API und OpenStreetMap zum Abgleich von Adressen wurde die Gültigkeit von etwa 91% der 2049 Testadressen korrekt ermittelt. Der auf Schwellenwerten basierende Ansatz der multivariaten Normalverteilung schnitt bei der Klassifizierung von Wohnungen auf der Grundlage von Kaltmiete und Fläche am besten ab, wobei etwa 90% bzw. 87% von 1143 Testwohnungen korrekt als echt bzw. gefälscht eingestuft wurden. Insgesamt wurde festgestellt, dass der Adressabgleich mit Nominatim API und OpenStreetMap zusammen mit einem schwellenwertbasierten multivariaten Normalverteilungsansatz für Kaltmiete und Fläche angemessen ist, um im Kontext von Wohnungsmarktanalysen die Verlässlichkeit anonym bereitgestellter Wohnungsdaten zu erhöhen. A problem of crowdsourcing data lies in assuring that anonymous users do not accidentally or intentionally provide false information. Therefore, a well-performing method for validating the users’ information is vital for every purpose for which the data was originally collected. This thesis investigates different data validation techniques for crowdsourced data about the housing situation of residents of Hamburg in Germany. The results of this thesis are of special interest to the local initiative of "Hamburg Enteignet" who are, among other things, aiming to shed light on Hamburg’s current housing market. Various data validation approaches were implemented to make sure that provided apartment data (address, cold rent and area) is likely to originate from an actual apartment in Hamburg in contrast to being fabricated. Apartment addresses were validated by cross-referencing the user’s provided data with the open APIs Nominatim and Open-StreetMap. For cold rent and apartment area we considered K-Means clustering and threshold based approaches using standard deviation as well as a multivariate normal distribution. The combination of Nominatim API and OpenStreetMap for cross-referencing addresses, correctly determined the validity of about 91% of 2049 test addresses. The threshold based multivariate normal distribution approach performed best for classifying apartments based on cold rent and area with about 90% and 87% of 1143 test apartments correctly determined to be real and fake, respectively. |
URI: | https://hdl.handle.net/20.500.12738/16989 | Institute: | Department Informations- und Elektrotechnik Fakultät Technik und Informatik |
Type: | Thesis | Thesis type: | Bachelor Thesis | Advisor: | Neumann, Heike | Referee: | Rauscher-Scheibe, Annabella |
Appears in Collections: | Theses |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
BA_Validation of Crowdsourced Apartment for Data Veracity_geschwärzt.pdf | 2.14 MB | Adobe PDF | View/Open |
Note about this record
Export
Items in REPOSIT are protected by copyright, with all rights reserved, unless otherwise indicated.