Was ist ein Large Language Model?
Ein Large Language Model (LLM) ist ein künstliches neuronales Netzwerk mit Milliarden oder sogar Billionen von Parametern, das auf riesigen Textmengen trainiert wurde. Diese Modelle können menschenähnliche Texte verstehen und generieren, Fragen beantworten, übersetzen und viele weitere sprachbasierte Aufgaben ausführen.
Fun Fact: GPT-4 wurde auf geschätzten 45TB Textdaten trainiert – das entspricht etwa 45 Millionen Büchern!
1. Training (Pre-Training)
Das Modell lernt Sprachmuster aus riesigen Textmengen durch "Next Token Prediction" – es versucht vorherzusagen, welches Wort als nächstes kommt.
Eingabe: "Der Himmel ist..."
Modell lernt: "blau" (wahrscheinlich), "grau" (möglich), "grün" (unwahrscheinlich)
2. Transformer-Architektur
LLMs basieren auf der Transformer-Architektur mit Attention-Mechanismen, die es dem Modell ermöglichen, Beziehungen zwischen Wörtern über große Distanzen zu verstehen.
3. Tokenisierung
Text wird in kleinere Einheiten (Tokens) zerlegt – etwa 1 Token ≈ 0.75 Wörter.
Bekannte Large Language Models
GPT-4
OpenAI
Claude 3
Anthropic
Gemini Pro
LLaMA 2
Meta
Modell | Entwickler | Parameter | Release | Verfügbarkeit |
---|---|---|---|---|
Kommerzielle Modelle | ||||
GPT-4o | OpenAI | ~1.76T | Mai 2024 | API |
GPT-4.1 | OpenAI | ~1.76T | Q1 2025 | API |
GPT-4.5 | OpenAI | ~5-7T (est.) | Februar 2025 | API |
o3 | OpenAI | Unbekannt | 16. April 2025 | API |
o3-mini | OpenAI | Unbekannt | 31. Jan 2025 | API |
Claude 4 Opus | Anthropic | Unbekannt | 22. Mai 2025 | API |
Claude 3.5 Sonnet | Anthropic | Unbekannt | 2024 | API |
Gemini 2.5 Pro | Unbekannt | 25. März 2025 | API | |
Gemini 2.0 Flash | Unbekannt | 2024 | API | |
Open Source Modelle | ||||
LLaMA 4 Scout | Meta | 109B (17B aktiv) | 5. April 2025 | Open Source |
LLaMA 3.3 70B | Meta | 70B | 2024 | Open Source |
LLaMA 3.1-405B | Meta | 405B | 2024 | Open Source |
DeepSeek R1 | DeepSeek | 671B (37B aktiv) | 20. Jan 2025 | MIT License |
DeepSeek V3 | DeepSeek | 671B (MoE) | 2024 | Open Source |
Qwen 3 | Alibaba | 0.6B-235B | 28. April 2025 | Apache 2.0 |
QwQ-32B | Alibaba | 32B | Dez 2024 | Open Source |
Mistral Large 2 | Mistral AI | 123B | 2024 | Kommerziell |
Mixtral 8x22B | Mistral AI | 141B (39B aktiv) | 2024 | Apache 2.0 |
Falcon 3 | TII | 1B-10B | Jan 2025 | Apache 2.0 |
Falcon 180B | TII | 180B | Sep 2023 | Apache 2.0 |
Spezialisierte Modelle | ||||
CodeLlama 70B | Meta | 70B | 2023 | Code |
StarCoder2 | BigCode | 3B-15B | 2024 | Code |
DeepSeek Coder | DeepSeek | 33B | 2024 | Code |
Med-PaLM 2 | Unbekannt | 2023 | Medizin | |
BioMistral | Mistral AI | 7B | 2024 | Medizin |
Small/Edge Modelle | ||||
Phi-4 | Microsoft | 16B | 2025 | API |
Phi-3.x | Microsoft | 3.8B-42B | 2024 | MIT |
Gemma 3 | 1B-27B | 2025 | Apache 2.0 | |
Gemma 2 | 2B-7B | Juni 2024 | Apache 2.0 | |
MiniCPM | OpenBMB | 1B-4B | 2024 | Open Source |
MobileLLaMA | Community | 1.4B-2.7B | 2024 | Edge |
StableLM-Zephyr | Stability AI | 3B | 2024 | Apache 2.0 |
Chinesische Modelle | ||||
Qwen 2.5-Max | Alibaba | 110B | 2024 | API |
Doubao Pro | ByteDance | Unbekannt | 2024 | API |
Ernie Bot | Baidu | 260B | 2024 | Kommerziell |
Hunyuan | Tencent | 52B | 2024 | API |
Pangu | Huawei | 230B | 2024 | Kommerziell |
Europäische Modelle | ||||
Pixtral Large | Mistral AI | 124B | 2025 | Multimodal |
Magistral | Mistral AI | Unbekannt | 2025 | Reasoning |
Mistral Small 3 | Mistral AI | 24B | Jan 2025 | Apache 2.0 |
BLOOM | BigScience | 176B | 2022 | BigScience |
Pharia-1-LLM-7B | Aleph Alpha | 7B | Sep 2024 | EU Konform |
Multimodale Modelle | ||||
Amazon Nova | Amazon | Unbekannt | 2024 | Video/Audio |
LLaVA-Next | Community | 34B | 2024 | Vision |
CLIP-L/14 | OpenAI | 427M | 2024 | Vision |
Reasoning Modelle | ||||
o3-mini | OpenAI | Unbekannt | 2025 | Reasoning |
Claude 4 Sonnet | Anthropic | Unbekannt | Mai 2025 | Reasoning |
* Parameteranzahl und Verfügbarkeit können sich ändern. Stand: Juli 2025
Was können LLMs?
Textgenerierung
Erstellen von kohärenten, kontextbezogenen Texten in verschiedenen Stilen
Übersetzung
Übersetzen zwischen dutzenden Sprachen mit hoher Genauigkeit
Code-Generierung
Schreiben und Erklären von Code in verschiedenen Programmiersprachen
Reasoning
Logisches Denken und Problemlösung bei komplexen Aufgaben
Die Anzahl der Parameter ist exponentiell gewachsen – moderne LLMs haben 1000x mehr Parameter als ihre Vorgänger von vor 5 Jahren.
- •Halluzinationen: LLMs können plausibel klingende, aber falsche Informationen generieren
- •Aktualität: Trainingsdaten haben einen Stichtag (Knowledge Cutoff)
- •Kontextlänge: Begrenzte Menge an Text, die gleichzeitig verarbeitet werden kann
- •Bias: Können Vorurteile aus den Trainingsdaten übernehmen
- •Kein echtes Verständnis: Arbeiten mit statistischen Mustern, nicht mit echtem Wissen
Die Entwicklung von LLMs schreitet rasant voran. Zukünftige Trends umfassen:
- Effizienz: Kleinere, spezialisierte Modelle mit vergleichbarer Leistung
- Multimodalität: Integration von Text, Bild, Audio und Video
- Längere Kontexte: Verarbeitung von ganzen Büchern oder Dokumentensammlungen
- Reasoning: Verbesserte logische Schlussfolgerungen und Problemlösung