Volltextdatei(en) in REPOSIT vorhanden Open Access
Titel: Evaluierung des PrivBayes-Algorithmus : Vergleich zwischen Original- und synthetischen Daten anhand von Qualitäts- und Datenschutzmetriken
Sprache: Deutsch
Autorenschaft: Schleiermacher, Jakob 
Schlagwörter: Synthetische Daten; Differenzielle Privatsphäre; Datenqualitätsbewertung; Bayessche Netzwerke
Erscheinungsdatum: 25-Sep-2025
Zusammenfassung: 
In einer zunehmend datengesteuerten Welt bieten synthetische Daten eine praktikable Möglichkeit, hochwertige Testdaten bereitzustellen und gleichzeitig den Schutz personenbezogener Informationen zu gewährleisten. Diese Bachelorarbeit untersucht den PrivBayes-Algorithmus, der Bayessche Netzwerke mit dem Konzept der differenziellen Privatsphäre kombiniert, um synthetische Datensätze zu generieren, die sowohl statistisch aussagekräftig als auch datenschutzkonform sind. Ziel ist es, die Qualität dieser synthetischen Daten anhand zentraler Metriken systematisch zu bewerten.
Dazu werden mehrere öffentlich verfügbare Datensätze verwendet, auf deren Grundlage insgesamt 80 synthetische Varianten unter variierenden Parametereinstellungen entstehen. Die Bewertung erfolgt mithilfe etablierter Metriken wie Weighted Statistics, Column Pair Trends, Value Coverage und Disclosure Protection. Die Ergebnisse zeigen, dass PrivBayes unter bestimmten Bedingungen in der Lage ist, zentrale statistische Strukturen und Variabilität der Originaldaten weitgehend zu erhalten und gleichzeitig ein hohes Maß an Datenschutz zu gewährleisten.
Die Arbeit leistet darüber hinaus einen Beitrag zum Forschungsprojekt INSIGHT (INtelligent Synthesis and Generation of High-quality Test Data), das sich mit der Generierung und Nutzung synthetischer Testdaten befasst. Durch die systematische Evaluation von PrivBayes entsteht ein besseres Verständnis darüber, wie sich Datenschutz und Datenqualität in Einklang bringen lassen. Damit unterstützt die Arbeit das langfristige Ziel der Forschungsgruppe, Werkzeuge und Verfahren zur automatisierten Erzeugung synthetischer Testdaten zu entwickeln, die für realitätsnahe, datenschutzfreundliche Testszenarien geeignet sind.

In an increasingly data-driven world, synthetic data offers a practical approach to providing high-quality test data while ensuring the protection of personal information. This bachelor thesis examines the PrivBayes algorithm, which combines Bayesian networks with the concept of differential privacy to generate synthetic datasets that are both statistically meaningful and privacy-preserving. The aim is to systematically evaluate the quality of these synthetic datasets using key metrics.
Several publicly available datasets were used as a basis, from which a total of 80 synthetic variants were generated under varying parameter configurations. The evaluation was conducted using established metrics such as Weighted Statistics, Column Pair Trends, Value Coverage, and Disclosure Protection. The results demonstrate that, under specific conditions, PrivBayes can largely preserve the central statistical structures and variability of the original data while maintaining a high level of data protection.
Moreover, this thesis contributes to the INSIGHT (INtelligent Synthesis and Generation of High-quality Test Data) research project, which focuses on the generation and use of synthetic test data. By systematically evaluating PrivBayes, this work helps to deepen the understanding of how privacy and data quality can be effectively balanced. In doing so, it supports the long-term goal of the research group to develop tools and methods for the automated generation of synthetic test data suitable for realistic and privacy-compliant testing scenarios.
URI: https://hdl.handle.net/20.500.12738/19414
Einrichtung: Fakultät Technik und Informatik (ehemalig, aufgelöst 10.2025) 
Department Informatik (ehemalig, aufgelöst 10.2025) 
Dokumenttyp: Abschlussarbeit
Abschlussarbeitentyp: Bachelorarbeit
Betreuer*in: Steffens, Ulrike  
Gutachter*in: Zukunft, Olaf 
Enthalten in den Sammlungen:Theses

Dateien zu dieser Ressource:
Datei Beschreibung GrößeFormat
BA_Evaluierung_des_PrivBayes-Algorithmus.pdf1.17 MBAdobe PDFÖffnen/Anzeigen
Zur Langanzeige

Google ScholarTM

Prüfe

HAW Katalog

Prüfe

Feedback zu diesem Datensatz


Alle Ressourcen in diesem Repository sind urheberrechtlich geschützt.