An Explainability Analysis of BERT’s Interpretability with GNN-Generated Knowledge Graph Embeddings Delivered through Soft Prompts

Khalidi, Ahmad

Title:	An Explainability Analysis of BERT’s Interpretability with GNN-Generated Knowledge Graph Embeddings Delivered through Soft Prompts
Language:	English
Authors:	Khalidi, Ahmad
Keywords:	Large Language Modeling; LLM; BERT; Graph Representation Learning; GNN; GCN; Link Prediction
Issue Date:	5-Nov-2025
Abstract:	Trotz großer Fortschritte von großen Sprachmodellen (LLMs) der letzten Jahre in praktischen Anwendungs-zenarien leiden LLMs an Halluzinationen und Biases. Mit retrieval augmented generation (RAG) werden den Sprachmodellen zur Laufzeit eine Faktenbasis übergeben, auf die sie sich beziehen können. Bei Knowledge Graphen (KG) basiert dieser Prozess auf graph representation learning (GRL), einem Aufgabenfeld, welcher die Strukturen von Knoten und Kanten der Graphen auf niedrigsdimensionale Vektorräume abbildet. Die sogenannten knowledge graph embeddings (KGEs) bilden dabei die strukturelle Einbettung von Knoten und Kanten dieser KGs ab. In dieser Arbeit trainieren wir ein BERT-Modell auf die Klassifikationsaufgabe: link prediction. Wir weisen nach, dass sich die Performance steigert, wenn dem BERT-Modell nicht nur die natürlich sprachigen Elemente des KG übergeben werden, sondern vorverarbeitete KGEs, die von graph neuronalen Netzen (GNN) generiert worden sind. Wir untersuchen dann mit Hilfe von explainable AI (XAI) Methoden die inneren Zustände und Verhaltensweisen des BERT-Modells. Es stellte sich dabei heraus, dass BERT die aus dem GNN generierten KGEs nur teilweise zu interpretieren vermag. Dabei unterschied das Modell zwischen verschiedenen Strategien, zwischen denen es anhand weniger offensichtlichen Faktoren entschieden hat. Als eine der wichtigsten Einflussfaktoren stellte sich die Konnektivität von Knoten heraus. Despite major advances in large language models (LLMs) in recent years in practical scenarios, LLMs suffer from hallucinations and biases. With retrieval augmented generation (RAG), the language models are given a fact base at runtime to which they can refer. For knowledge graphs (KG), this process is based on graph representation learning (GRL), a task field that maps the structures of nodes and edges of the graphs to low-dimensional vector spaces. The so-called knowledge graph embeddings (KGEs) represent the structural embedding of nodes and edges of these KGs. In this work, we train a BERT model on the classification task: link prediction. We prove that the performance increases when the BERT model is not only given the natural language elements of the KG, but also preprocessed KGEs generated by graph neural networks (GNN). We then use explainable AI (XAI) methods to examine the internal states and behaviors of the BERT model. It turned out that BERT is only partially able to interpret the KGEs generated from the GNN. The model distinguished between different strategies, between which it decided on the basis of less obvious factors. One of the most important influencing factors turned out to be the connectivity of nodes.
URI:	https://hdl.handle.net/20.500.12738/18353
Institute:	Department Informatik (ehemalig, aufgelöst 10.2025) Fakultät Technik und Informatik (ehemalig, aufgelöst 10.2025)
Type:	Thesis
Thesis type:	Master Thesis
Advisor:	Clemen, Thomas
Referee:	Tropmann-Frick, Marina
Appears in Collections:	Theses