Adversarial Attacks and Defense based on JPEG Coefficients

Sielmann, Kolja Luca

Title:	Adversarial Attacks and Defense based on JPEG Coefficients
Language:	English
Authors:	Sielmann, Kolja Luca
Keywords:	Adversarial Attacks; JPEG Coefficients; Perceptual Metrics; Neural Nets; JPEG Koeffizienten; Perzeptuelle Distanzmetriken; Neuronale Netze
Issue Date:	17-Jul-2025
Abstract:	Neural networks have been shown to be vulnerable towards small, barely visible alterations of input images that lead to misclassifications, so-called adversarial examples. There has been a lot of research on creating adversarial examples and how to defend nets against them. Usually, those methods perturb images' RGB pixel representations. We propose applying perturbations straight on JPEG coefficients. Our method allows to control the perturbation applied on each YCbCr channel and each DCT frequency. We find that adversarial perturbation is often most efficient when it is applied on medium DCT frequencies, with efficiency being defined as the proportion of success rate and perceived distances. The superiority of medium-frequency perturbations is especially clear when JPEG compression is used in defense. We also show that, for maximum-confidence attacks, perturbing JPEG cofficients is more efficient than the state-of-the-art attacks that mainly apply the alterations in RGB pixel space, which is reasoned in using the YCbCr color model allowing us to limit the perturbation to the luma channel where it is more efficient but also controlling the perturbation applied on each frequency. By weighting multiple JPEG attacks that concentrate their perturbations on different parts of the DCT frequency spectrum during adversarial training, we are able to train a net that is robust against perturbations on the whole frequency spectrum and RGB and YCbCr pixel attacks as well which shows that JPEG coefficients are a representation that is well-suited to achieve more generalizing robustness against unforeseen threat models as well. Kleine, kaum sichtbare Veränderungen, sogenannte Adversarial Examples, können zur falschen Klassifikation durch neuronale Netze führen. Es wurden bereits viele Methoden zur Erstellung solcher Adversarial Examples und zur Verteidigung entworfen. Üblicherweise verändern diese die Bilder in ihrer RGB-Pixelrepräsentation. In dieser Thesis werden diese Veränderungen direkt auf JPEG Koeffizienten durchgeführt. Dabei kann die Stärke der Veränderung auf jedem YCbCr-Kanal sowie jeder DCT-Frequenz einzeln kontrolliert werden. Wir zeigen, dass Veränderungen auf mittleren Frequenzen am effizientesten sind, wobei die Effizienz als Verhältnis von Erfolgsrate und wahrgenommener Distanz definiert ist. Die Überlegenheit der Veränderungen auf mittleren Frequenzen gilt insbesondere dann, wenn JPEG compression zur Verteidigung genutzt wird. Zusätzlich zeigen wir, dass JPEG Koeffizienten grundsätzlich die effizientere Representation für Maximum-Confidence-Attacks als RGB-Pixel sind. Dies ist sowohl durch die Nutzung des YCbCr-Farbmodells begründet, was ermöglicht, nur Luminanz-Informationen zu verändern, als auch durch die Nutzung der DCT Koeffizienten, wodurch die Veränderungen manuell auf das Frequenzspektrum verteilt werden kann. Mithilfe der Gewichtung verschiedener solcher Angriffe, die jeweils unterschiedliche Teile des Frequenzspektrums anvisieren, trainieren wir mit Adversarial Training ein Netz, welches sowohl gegen JPEG Angriffe auf unterschiedlichen Frequenzen als auch gegen Angriffe auf RGB- und YCbCr-Pixeln robust ist.
URI:	https://hdl.handle.net/20.500.12738/17878
Institute:	Fakultät Technik und Informatik Department Informatik
Type:	Thesis
Thesis type:	Master Thesis
Advisor:	Stelldinger, Peer
Referee:	Tropmann-Frick, Marina
Appears in Collections:	Theses