Volltextdatei(en) in REPOSIT vorhanden Open Access
DC ElementWertSprache
dc.contributor.advisorNeumann, Heike-
dc.contributor.authorHavrylenko, Ivan-
dc.date.accessioned2025-02-05T07:21:43Z-
dc.date.available2025-02-05T07:21:43Z-
dc.date.created2022-11-10-
dc.date.issued2025-02-05-
dc.identifier.urihttps://hdl.handle.net/20.500.12738/16989-
dc.description.abstractEin Problem beim Crowdsourcing von Daten besteht darin, sicherzustellen, dass anonyme Nutzer nicht versehentlich oder absichtlich falsche Angaben machen. Für die Vorhaben, für die die Daten ursprünglich erhoben wurden, ist daher eine gut funktionierende Methode, zur Validierung der Nutzerinformationen, unerlässlich. In dieser Arbeit werden verschiedene Datenvalidierungstechniken für Crowdsourced-Daten über die Wohnsituation von Bürgern der Stadt Hamburg, Deutschland, untersucht. Die Ergebnisse dieser Arbeit sind von besonderem Interesse für die lokale Initiative "Hamburg Enteignet", die u.a. Tranzparenz für den aktuellen Hamburger Wohnungsmarkt schaffen will. Um sicherzustellen, dass die bereitgestellten Wohnungsdaten (Adresse, Kaltmiete und Fläche) mit hoher Wahrscheinlichkeit aus einer realen Wohnung in Hamburg stammen und nicht gefälscht sind, wurden verschiedene Ansätze zur Datenvalidierung eingesetzt. Die Wohnungsadressen wurden durch Abgleich der vom Nutzer bereitgestellten Daten mit den offenen APIs Nominatim und OpenStreetMap validiert. Für Kaltmiete und Wohnungsfläche wurden K-Means-Clustering und schwellenwertbasierte Ansätze unter Verwendung der Standardabweichung sowie einer multivariaten Normalverteilung berücksichtigt. Durch die Kombination von Nominatim API und OpenStreetMap zum Abgleich von Adressen wurde die Gültigkeit von etwa 91% der 2049 Testadressen korrekt ermittelt. Der auf Schwellenwerten basierende Ansatz der multivariaten Normalverteilung schnitt bei der Klassifizierung von Wohnungen auf der Grundlage von Kaltmiete und Fläche am besten ab, wobei etwa 90% bzw. 87% von 1143 Testwohnungen korrekt als echt bzw. gefälscht eingestuft wurden. Insgesamt wurde festgestellt, dass der Adressabgleich mit Nominatim API und OpenStreetMap zusammen mit einem schwellenwertbasierten multivariaten Normalverteilungsansatz für Kaltmiete und Fläche angemessen ist, um im Kontext von Wohnungsmarktanalysen die Verlässlichkeit anonym bereitgestellter Wohnungsdaten zu erhöhen.de
dc.description.abstractA problem of crowdsourcing data lies in assuring that anonymous users do not accidentally or intentionally provide false information. Therefore, a well-performing method for validating the users’ information is vital for every purpose for which the data was originally collected. This thesis investigates different data validation techniques for crowdsourced data about the housing situation of residents of Hamburg in Germany. The results of this thesis are of special interest to the local initiative of "Hamburg Enteignet" who are, among other things, aiming to shed light on Hamburg’s current housing market. Various data validation approaches were implemented to make sure that provided apartment data (address, cold rent and area) is likely to originate from an actual apartment in Hamburg in contrast to being fabricated. Apartment addresses were validated by cross-referencing the user’s provided data with the open APIs Nominatim and Open-StreetMap. For cold rent and apartment area we considered K-Means clustering and threshold based approaches using standard deviation as well as a multivariate normal distribution. The combination of Nominatim API and OpenStreetMap for cross-referencing addresses, correctly determined the validity of about 91% of 2049 test addresses. The threshold based multivariate normal distribution approach performed best for classifying apartments based on cold rent and area with about 90% and 87% of 1143 test apartments correctly determined to be real and fake, respectively.en
dc.language.isoenen_US
dc.subjectOpenStreetMapen_US
dc.subjectGeodataen_US
dc.subjectNominatimen_US
dc.subjectValidierungen_US
dc.subjectCrowdsourcingen_US
dc.subjectÜberwachtes Lernenen_US
dc.subjectUnüberwachtes Lernenen_US
dc.subjectK-Meansen_US
dc.subjectMehrdimensionale Normalverteilungen_US
dc.subjectMultivariate Normal Distributionen_US
dc.subject.ddc004: Informatiken_US
dc.subject.ddc600: Techniken_US
dc.titleValidation of Crowdsourced Apartment Data for Data Veracityen
dc.typeThesisen_US
openaire.rightsinfo:eu-repo/semantics/openAccessen_US
thesis.grantor.departmentDepartment Informations- und Elektrotechniken_US
thesis.grantor.universityOrInstitutionHochschule für Angewandte Wissenschaften Hamburgen_US
tuhh.contributor.refereeRauscher-Scheibe, Annabella-
tuhh.identifier.urnurn:nbn:de:gbv:18302-reposit-207300-
tuhh.oai.showtrueen_US
tuhh.publication.instituteDepartment Informations- und Elektrotechniken_US
tuhh.publication.instituteFakultät Technik und Informatiken_US
tuhh.type.opusBachelor Thesis-
dc.type.casraiSupervised Student Publication-
dc.type.dinibachelorThesis-
dc.type.driverbachelorThesis-
dc.type.statusinfo:eu-repo/semantics/publishedVersionen_US
dc.type.thesisbachelorThesisen_US
dcterms.DCMITypeText-
tuhh.dnb.statusdomainen_US
item.grantfulltextopen-
item.creatorGNDHavrylenko, Ivan-
item.cerifentitytypePublications-
item.creatorOrcidHavrylenko, Ivan-
item.advisorGNDNeumann, Heike-
item.languageiso639-1en-
item.openairecristypehttp://purl.org/coar/resource_type/c_46ec-
item.fulltextWith Fulltext-
item.openairetypeThesis-
Enthalten in den Sammlungen:Theses
Dateien zu dieser Ressource:
Zur Kurzanzeige

Seitenansichten

16
checked on 03.04.2025

Download(s)

13
checked on 03.04.2025

Google ScholarTM

Prüfe

HAW Katalog

Prüfe

Feedback zu diesem Datensatz


Alle Ressourcen in diesem Repository sind urheberrechtlich geschützt.