Spätestens seit der Veröffentlichung von ChatGPT im November 2022 sind Large Language Models (LLMs) in aller Munde.
Aber was ist ein LLM und was können diese „neuartigen Wundermaschinen“ überhaupt?
In diesem Lexikon-Eintrag erfährt du alles, was du als Anfänger über LLMs wissen musst:
1. Definition
Als Large Language Model (auf Deutsch: großes Sprachmodelle) oder kurz LLM bezeichnet man eine Software, die mit Methoden des maschinellen Lernens auf großen Textdatenmengen trainiert wurde.
Dadurch lernt es die Strukturen und Muster natürlicher Sprache und kann dann selbst sinnvolle, menschenähnliche Texte erzeugen.
Das Besondere an modernen LLMs ist, dass erzeugte Texte oft kaum von echtem, durch Menschen geschriebenen Text zu unterscheiden sind.
So ist es mit ChatGPT zum Beispiel möglich, lange und darüber hinaus auch gut gereimte Songtexte zu schreiben:
Bitte beachte:
ChatGPT und andere KI-Chatbots wie Claude, Microsoft Copilot oder Google Gemini sind selbst keine LLMs, sondern Tools. Sie basieren lediglich technisch auf einem oder mehreren LLMs.
ChatGPT und Microsoft Copilot basieren zum Beispiel auf „GPT-3.5“ und „GPT-4“. Google Gemini basiert auf „Gemini 1.0 Pro“ und „Gemini 1.0 Ultra“ und Claude basiert auf den drei LLMs „Claude 3 Opus, Sonnet und Haiku“.
Leider kommt es da manchmal zu Verwechselungen, weil die Tools und die Modell gleich oder sehr ähnlich heißen.
2. Was können LLMs und wofür werden sie eingesetzt?
Large Language Models sind wahre Multitalente, wenn es um die Bearbeitung, Analyse und Erstellung von Texten geht.
Sie können viele Aufgaben erledigen, für die man früher spezialisierte Systeme gebraucht hätte oder die ohne LLMs schlichtweg unmöglich waren:
Texterstellung und -bearbeitung
- Zusammenfassen von Texten
- Übersetzen zwischen verschiedenen Sprachen
- Verfassen von Artikeln, Geschichten, Gedichten und vielen anderen Textarten
- Korrigieren von Rechtschreib- und Grammatikfehlern
- Paraphrasieren, also das Umschreiben von Text mit anderen Worten
Beantworten von Fragen und Führen von Dialogen
- Als Wissensdatenbank zu verschiedensten Themen
- Beantworten von Verständnisfragen zu einem Text oder Dokument
- Führen von Dialogen als interaktive Chatbots
Analysieren und Verstehen von Texten
- Textarten erkennen (Nachricht, Werbung, Fachtext etc.)
- Stimmung und Tonalität erkennen (positiv, negativ, formell, informell etc.)
- Identifikation von Personen, Organisationen, Orten etc. im Text
Programmieren
- Erklären von Code
- Generieren von Code
- Debugging (das Finden und Beheben von Fehlern und Sicherheitslücken im Code)
2.1 In welchen Tools werden sie eingesetzt?
LLMs kommen zum Beispiel in folgenden Tools zum Einsatz. Entweder als Haupt- oder als Nebenfunktion:
- KI-Textgeneratoren
- KI-Chatbots
- KI-Sprachgeneratoren
- KI-Meeting-Assistenten
- KI-SEO-Tools
- KI-Avatargeneratoren
- KI-Videogeneratoren
4. Wie funktionieren LLMs ?
LLMs basieren auf einer Technik namens „Deep Learning“. Dabei lernt ein neuronales Netzwerk anhand riesiger Textmengen, die Struktur und Logik von Sprache zu verstehen.
Es findet Muster und Zusammenhänge in den Daten, ohne dass diese explizit programmiert werden. Durch dieses Training entsteht ein statistisches Modell, das die Wahrscheinlichkeit von Wortfolgen abbildet.
Hier ein (stark vereinfachtes) Beispiel, wie ein LLM eine Antwort generiert:
1. Prompt: „Das Wetter heute ist sehr“
2. Das LLM schaut in seinem Modell nach den wahrscheinlichsten nächsten Worten
3. Basierend auf den gelernten Mustern ermittelt es folgende Wahrscheinlichkeiten:
- „gut“: 40 %
- „schlecht“: 30 %
- „wechselhaft“: 20 %
- usw.
4. Das LLM wählt das Wort „gut“ aus, weil es mit 40 % das wahrscheinlichste ist.
5. Das Sprachmodell wiederholt die Schritte 2 bis 4 für das nächste Wort: „Das Wetter heute ist gut und die Regenwahrscheinlichkeit sehr gering.“
6. Diese Schleife wiederholt das LLM, bis es ein Stoppkriterium erreicht (z. B. ein bestimmtes Satzzeichen kommt oder eine vorgegebene Menge generierte Zeichen oder Token erreicht ist)
5. Grenzen von LLMs
Durch ihren wahrscheinlichkeitsbasierten Ansatz können LLMs Texte generieren, die kaum von menschengemachten Texten zu unterscheiden sind.
Wichtig zu verstehen, ist jedoch, dass…
- LLMs kein echtes Verständnis von Konzepten oder Logik haben (sie reproduzieren nur Muster)
- kein Bewusstsein haben und nicht „lebendig“ sind (obwohl sie ziemlich gut darin sind, dir das vorzugaukeln)
- sie Fakten vermischen oder Dinge „halluzinieren“ (erfinden) können
- sie ein Knowledge Cutoff Date haben. Das heißt, nur Daten bis zu einem bestimmten Zeitpunkt berücksichtigten und es kann sein, dass sie veraltete Zahlen, Daten oder Fakten ausspucken.
- Antworten von LLMs variieren können (abhängig und unabhängig von den Befehlen oder Fragen, die man stellt)
- sie keine stabile Persönlichkeit oder ein konsistentes Wertesystem haben
Dazu kommt, dass die internen Abläufe von LLMs selbst für Experten und LLM-Entwickler eine Art „Blackbox“ sind.
Das heißt, obwohl man Input und Output kennt, kann man nicht genau nachvollziehen, wie der Output „zwischendrin“ zustande gekommen ist.
Womit wir beim nächsten Punkt wären:
6. Risiken & Herausforderungen
So hilfreich und spannend LLMs auch sein mögen, bringen sie auch diverse Risiken und Herausforderungen mit, die hier nicht unerwähnt bleiben sollen.
Dazu gehören:
- Verbreitung von Fake News, Propaganda und Verschwörungstheorien
- Umgehen von internen Sicherheitsmechanismen von LLMs, z. B. durch Prompt Injections
- Missbrauch für Betrug, z. B. durch Imitieren von Personen und Generieren gefälschter Inhalte
- Verstärkung von Vorurteilen und Diskriminierung durch verzerrte Trainingsdaten
- Verletzung von Urheberrecht und Datenschutz durch Reproduzieren von Trainingsdaten (auch, wenn es durch die Arbeitsweise von LLMs eher selten dazu kommen)
- Ersetzung von menschlicher Arbeitskraft und Expertise in bestimmten Bereichen
Wichtig in dem Zusammenhang ist AI Governance, das heißt das Entwickeln von Prinzipien, Richtlinien und Prozessen, die sicherstellen, dass große Sprachmodelle und darauf basierende KI-Tools ethisch und verantwortungsvoll eingesetzt werden.
7. Liste bekannter LLMs
Hier findest du eine Liste mit 20+ bekannten LLMs, die von Google, OpenAI, Amazon oder Meta entwickelt wurden:
Sprachmodell | Parameter (maximal) | Entwickler |
---|---|---|
AlexaTM | 20 Milliarden | Amazon Science |
BLOOM | 176 Milliarden | BigScience |
C-A-L | unbekannt | You.com |
Chinchilla | 70 Milliarden | DeepMind |
Falcon | 70 Milliarden | TII |
Gemini | 1,8 Milliarden bis unbekannt | Google Research |
GLaM | 1,2 Milliarden | Google Research |
GPT-2 | 1,5 Milliarden | OpenAI |
GPT-3 | 175 Milliarden | OpenAI |
GPT-3.5 | unbekannt | OpenAI |
GPT-4 | unbekannt | OpenAI |
Gopher | 280 Milliarden | Deepmind |
Grok-1 | unbekannt | xAI |
Inflection-1 | unbekannt | Inflection AI |
Inflection-2 | unbekannt | Inflection AI |
Jurassic-1 | 178 Milliarden | AI21 |
LaMDA | 137 Milliarden | Google Research |
LLaMA | 65 Milliarden | Meta AI |
Llama 2 | 70 Milliarden | Meta AI |
Megatron-Turing NLG | 530 Milliarden | NVIDIA |
OPT | 175 Milliarden | Meta AI |
PaLM | 540 Milliarden | Google Research |
PaLM 2 | 15 Milliarden | Google Research |
StableLM | 30 Milliarden | Stability.ai |