Explainable AI (XAI), auch erklärbare KI genannt, bezeichnet Methoden und Techniken, die die Entscheidungen und Vorhersagen von komplexen KI-Systemen für Menschen nachvollziehbar und verständlich machen sollen.
Ziel ist es, die sogenannte „Black Box" von LLMs und anderen KI-Modellen zu öffnen und Transparenz zu schaffen, um das Vertrauen in KI-Systeme zu stärken.
Mit dem zunehmenden Einsatz von KI in sensiblen Bereichen wie Medizin, Finanzen oder autonomes Fahren wird es immer wichtiger zu verstehen, wie die Systeme zu ihren Entscheidungen kommen.
Nur so kann sichergestellt werden, dass die KI fair, ethisch vertretbar und frei von Bias arbeitet. Außerdem ist Nachvollziehbarkeit eine Voraussetzung, um Fehler zu erkennen, die Systeme zu verbessern und rechtliche Vorgaben zu erfüllen.
1. Methoden erklärbarer KI
Es gibt verschiedene Ansätze, um KI-Modelle erklärbarer zu machen:
| Methode | Beschreibung |
|---|---|
| LIME (Local Interpretable Model-Agnostic Explanations) | Erzeugt lokale Erklärungen für einzelne Vorhersagen durch Approximation mit interpretierbaren Modellen |
| SHAP (SHapley Additive exPlanations) | Berechnet den Beitrag jedes Features zur Vorhersage basierend auf Shapley-Werten aus der Spieltheorie |
| Counterfactual Explanations | Zeigt minimale Änderungen der Eingabe, die zu einer anderen Vorhersage führen würden |
| Concept Activation Vectors (CAVs) | Ermittelt die Relevanz menschlich verständlicher Konzepte für die Entscheidungsfindung |
Andere Techniken sind beispielsweise Entscheidungsbäume, Regelextraktion oder visuelle Erklärungen wie Heatmaps oder Aktivierungskarten.
2. Geschichte der Explainable AI
Die Geschichte der erklärbaren KI reicht von frühen Forschungsarbeiten zu interpretierbaren Modellen bis hin zum heutigen EU AI Act. Die folgende interaktive Timeline zeigt die wichtigsten Meilensteine:
Geschichte der Explainable AI
Von frühen Forschungsarbeiten zum EU AI Act
3. XAI Frameworks im Überblick
Es gibt mittlerweile zahlreiche Open-Source-Tools und Bibliotheken, die erklärbare KI ermöglichen. Die folgende Tabelle zeigt die wichtigsten Frameworks im Vergleich:
4. Anwendungsgebiete & Beispiele
XAI spielt vor allem in Hochrisikobereichen wie Medizin, Kreditvergabe, autonomes Fahren, Strafverfolgung oder Militär eine Rolle:
Ein KI-System zur Erkennung von Hautkrebs könnte nicht nur eine Diagnose stellen, sondern auch die relevanten Bildmerkmale hervorheben, die zu dieser Entscheidung geführt haben.
Bei der Ablehnung eines Kreditantrags könnte ein XAI-System die wichtigsten Faktoren aufzeigen, die zu dieser Entscheidung geführt haben, z. B. Einkommen, Kredithistorie oder Beschäftigungsdauer.
5. Herausforderungen
Die Umsetzung von XAI ist mit einigen Schwierigkeiten verbunden:
- Komplexität der Modelle erschwert verständliche Erklärungen
- Trade-off zwischen Genauigkeit und Interpretierbarkeit
- Rechenaufwand für Erklärungsmethoden oft hoch
- Datenschutz muss bei Offenlegung gewahrt bleiben
- Fehlende Standards und Richtlinien für gute Erklärungen
6. Vorteile
Erklärbare KI bietet viele Vorteile:
- Stärkung des Vertrauens in KI-Systeme
- Verbesserung der Modelle durch Fehleranalyse
- Vermeidung von Bias und unfairer Diskriminierung
- Erfüllung gesetzlicher Anforderungen
- Bessere Zusammenarbeit zwischen Mensch und KI
7. Gesetzliche Regelungen
Immer mehr Länder und Organisationen fordern Transparenz und Nachvollziehbarkeit von KI-Systemen:
International
- OECD AI Principles: Ethische Leitlinien für vertrauenswürdige KI
- UNESCO Recommendation on the Ethics of Artificial Intelligence: Globaler Rahmen für ethische KI unter Wahrung der Menschenrechte
EU
- EU AI Act: EU-Verordnung zur Regulierung von KI nach Risikostufen
USA
- Executive Order on AI: Verfügung des US-Präsidenten zur Entwicklung von KI-Governance-Richtlinien und Prinzipien.
- AI Bill of Rights: Rahmenwerk für KI-Prinzipien zum Schutz der Bürgerrechte.
- AI Accountability Act: Gesetzesvorschlag in den USA, der eine sichere und innovationsfreundliche Umgebung für die Entwicklung und Implementierung von Künstlicher Intelligenz (KI) schaffen soll
8. Konkrete Lösungsansätze
Es gibt bereits einige konkrete Lösungsansätze, um LLMs und andere KI-Modelle besser zu verstehen:
8.1 Features von Anthropic
Anthropics Forschung zur „Kartierung des Gehirns" eines großen Sprachmodells stellt einen bedeutenden Fortschritt im Bereich der erklärbaren KI (XAI) dar.
Mithilfe einer als „Dictionary Learning" bezeichneten Technik ist es den Forschern gelungen, Millionen von interpretierbaren Merkmalen (Features) aus Claude 3 Sonnet zu extrahieren, z. B. das Golden Gate Bridge Feature.
Diese Features entsprechen verschiedenen Konzepten und Entitäten, von konkreten Objekten wie Städten oder Personen bis hin zu abstrakten Ideen wie „innerer Konflikt".
Der Ansatz ermöglicht es erstmals, einen detaillierten Einblick in die internen Zustände und Repräsentationen eines modernen, produktionsreifen Sprachmodells zu gewinnen.
Besonders interessant für XAI ist die Möglichkeit, diese Merkmale zu manipulieren und deren Auswirkungen auf das Modellverhalten zu beobachten. Dies erlaubt es den Forschern, kausale Zusammenhänge zwischen internen Repräsentationen und Modellausgaben herzustellen.
Anthropic hofft, dass diese Erkenntnisse dazu beitragen können, KI-Systeme sicherer zu machen, indem sie beispielsweise zur Überwachung gefährlicher Verhaltensweisen oder zur Verbesserung von Sicherheitstechniken wie Constitutional AI eingesetzt werden.
