| Title: | Evaluierung des PrivBayes-Algorithmus : Vergleich zwischen Original- und synthetischen Daten anhand von Qualitäts- und Datenschutzmetriken | Language: | German | Authors: | Schleiermacher, Jakob | Keywords: | Synthetische Daten; Differenzielle Privatsphäre; Datenqualitätsbewertung; Bayessche Netzwerke | Issue Date: | 25-Sep-2025 | Abstract: | In einer zunehmend datengesteuerten Welt bieten synthetische Daten eine praktikable Möglichkeit, hochwertige Testdaten bereitzustellen und gleichzeitig den Schutz personenbezogener Informationen zu gewährleisten. Diese Bachelorarbeit untersucht den PrivBayes-Algorithmus, der Bayessche Netzwerke mit dem Konzept der differenziellen Privatsphäre kombiniert, um synthetische Datensätze zu generieren, die sowohl statistisch aussagekräftig als auch datenschutzkonform sind. Ziel ist es, die Qualität dieser synthetischen Daten anhand zentraler Metriken systematisch zu bewerten. Dazu werden mehrere öffentlich verfügbare Datensätze verwendet, auf deren Grundlage insgesamt 80 synthetische Varianten unter variierenden Parametereinstellungen entstehen. Die Bewertung erfolgt mithilfe etablierter Metriken wie Weighted Statistics, Column Pair Trends, Value Coverage und Disclosure Protection. Die Ergebnisse zeigen, dass PrivBayes unter bestimmten Bedingungen in der Lage ist, zentrale statistische Strukturen und Variabilität der Originaldaten weitgehend zu erhalten und gleichzeitig ein hohes Maß an Datenschutz zu gewährleisten. Die Arbeit leistet darüber hinaus einen Beitrag zum Forschungsprojekt INSIGHT (INtelligent Synthesis and Generation of High-quality Test Data), das sich mit der Generierung und Nutzung synthetischer Testdaten befasst. Durch die systematische Evaluation von PrivBayes entsteht ein besseres Verständnis darüber, wie sich Datenschutz und Datenqualität in Einklang bringen lassen. Damit unterstützt die Arbeit das langfristige Ziel der Forschungsgruppe, Werkzeuge und Verfahren zur automatisierten Erzeugung synthetischer Testdaten zu entwickeln, die für realitätsnahe, datenschutzfreundliche Testszenarien geeignet sind. In an increasingly data-driven world, synthetic data offers a practical approach to providing high-quality test data while ensuring the protection of personal information. This bachelor thesis examines the PrivBayes algorithm, which combines Bayesian networks with the concept of differential privacy to generate synthetic datasets that are both statistically meaningful and privacy-preserving. The aim is to systematically evaluate the quality of these synthetic datasets using key metrics. Several publicly available datasets were used as a basis, from which a total of 80 synthetic variants were generated under varying parameter configurations. The evaluation was conducted using established metrics such as Weighted Statistics, Column Pair Trends, Value Coverage, and Disclosure Protection. The results demonstrate that, under specific conditions, PrivBayes can largely preserve the central statistical structures and variability of the original data while maintaining a high level of data protection. Moreover, this thesis contributes to the INSIGHT (INtelligent Synthesis and Generation of High-quality Test Data) research project, which focuses on the generation and use of synthetic test data. By systematically evaluating PrivBayes, this work helps to deepen the understanding of how privacy and data quality can be effectively balanced. In doing so, it supports the long-term goal of the research group to develop tools and methods for the automated generation of synthetic test data suitable for realistic and privacy-compliant testing scenarios. |
URI: | https://hdl.handle.net/20.500.12738/19414 | Institute: | Fakultät Technik und Informatik (ehemalig, aufgelöst 10.2025) Department Informatik (ehemalig, aufgelöst 10.2025) |
Type: | Thesis | Thesis type: | Bachelor Thesis | Advisor: | Steffens, Ulrike |
Referee: | Zukunft, Olaf |
| Appears in Collections: | Theses |
Files in This Item:
| File | Description | Size | Format | |
|---|---|---|---|---|
| BA_Evaluierung_des_PrivBayes-Algorithmus.pdf | 1.17 MB | Adobe PDF | View/Open |
Note about this record
Export
Items in REPOSIT are protected by copyright, with all rights reserved, unless otherwise indicated.