Welche Open-Source-LLMs sind 2026 am besten für kommerzielle Nutzung?

GPT-OSS-120B (Apache 2.0) und DeepSeek R1 (MIT) sind die Top-Empfehlungen für kommerzielle Projekte mit höchster Performance. Llama 4 Maverick bietet unter der Llama 4 Community License kommerzielle Nutzung für Unternehmen mit bis zu 700 Millionen monatlich aktiven Nutzern. Qwen3-235B-A22B-Thinking und Kimi K2 (beide MIT) sind ebenfalls hervorragende Optionen für geschäftskritische Anwendungen. Für mittlere Projekte eignen sich Gemma 3 27B, Phi-4 (14B) und Qwen3-32B sehr gut. Wichtig ist, immer die aktuellen Lizenzbedingungen zu prüfen, da sich diese ändern können.

Welche Hardware brauche ich, um Open-Source-LLMs lokal zu betreiben?

Die Hardware-Anforderungen variieren stark je nach Modellgröße: Für kleinere Modelle (7B Parameter): RTX 4090 mit 24GB VRAM erreicht 138 Token/s und reicht für die meisten Anwendungen. Mindestens 16GB RAM und schnelle NVMe SSD empfohlen. Für größere Modelle (70B Parameter): Zwei RTX 4090 oder professionelle GPUs wie A100 mit 40-80GB VRAM nötig. System mit 64GB+ RAM ideal. DeepSeek V3 benötigt noch mehr Ressourcen für optimale Performance. Alternative: Apple Silicon mit unified memory ist überraschend effektiv - Mac Studio mit 192GB kann Llama 70B mit 13,77 Token/s ausführen.

Wie unterscheiden sich die Top-3-Modelle: GPT-OSS-120B, DeepSeek R1 und Qwen3-235B?

GPT-OSS-120B von OpenAI führt mit GPQA: 80,1 % und AIME: 96,6 % bei wissenschaftlichem Reasoning, während DeepSeek R1 mit MATH-500: 97,3 % mathematische Spitzenleistung zeigt. Qwen3-235B-A22B-Thinking übertrifft beide in Code-Aufgaben (LiveCodeBench: 74,1 %) und schlägt DeepSeek R1 in 17/23 Benchmarks. GPT-OSS-120B benötigt nur 5,1B aktive Parameter (von 117B total), DeepSeek R1 37B (von 671B), Qwen3 22B (von 235B). Für wissenschaftliche Aufgaben: GPT-OSS-120B, für Mathematik: DeepSeek R1, für Code: Qwen3-235B. Alle drei nutzen permissive Lizenzen (Apache 2.0 bzw. MIT).

Welche Tools erleichtern die lokale Nutzung von Open-Source-LLMs?

Mehrere benutzerfreundliche Tools vereinfachen die lokale LLM-Nutzung erheblich: Ollama: Einfachste Installation, unterstützt alle gängigen Modelle LM Studio: Grafische Benutzeroberfläche, ideal für Einsteiger GPT4All: Leichtgewichtige Lösung für Consumer-Hardware Jan: Open-Source ChatGPT-Alternative mit lokaler Ausführung vLLM: Hochperformante Lösung für Produktionsumgebungen

Sind Open-Source-LLMs wirklich kostenlos oder gibt es versteckte Kosten?

Die Modelle selbst sind kostenlos, aber die Betriebskosten können erheblich sein. Lokale Nutzung ist nach der Hardware-Investition kostenfrei, aber leistungsstarke GPUs kosten 1.500-15.000 €+. Stromverbrauch für Training und Inferenz ist nicht zu unterschätzen. Managed API-Provider bieten oft kostenlose Kontingente, verlangen dann aber Gebühren ähnlich OpenAI/Anthropic. VPS-Hosting beginnt bei 20 €/Monat für CPU-only, GPU-Server kosten deutlich mehr. Die wahren Kosten liegen in Hardware, Strom und eventueller Cloud-Nutzung.

Wie entwickelt sich die Open-Source-LLM-Landschaft 2026?

2025 markiert den Durchbruch für Open-Source-LLMs: Mit GPT-OSS-120B steigt OpenAI erstmals seit GPT-2 wieder ein, während DeepSeek R1 und Qwen3 proprietäre Modelle wie GPT-4 übertreffen. Mixture-of-Experts (MoE) dominiert: 8 der Top 10 nutzen MoE für Effizienz bei Billionen von Parametern. Meta's Llama 4 Maverick (400B MoE, 17B aktiv) zeigt, dass kleine aktivierte Parameter Spitzenleistung ermöglichen. Neue Player wie Moonshot AI (Kimi K2 mit 1T Parametern) und weiterentwickelte Modelle von Google (Gemma 3), Microsoft (Phi-4) und IBM (Granite Code) intensivieren den Wettbewerb. Trend: Hochspezialisierte Modelle für spezifische Domänen (Code, Math, Reasoning) statt Allzweck-Giganten.

Die 50 besten Open-Source-LLMs (und wie du sie nutzt)

Open-Source-LLMs sind einer der wichtigsten KI-Trends für 2025.

Und das nicht zu Unrecht:

Open-Source-Modelle waren lange Zeit deutlich schwächer als proprietäre Modelle. Aber dieses Jahr haben sie aufgeholt:

Mit GPT-OSS-120B, DeepSeek R1, Qwen3-235B-A22B-Thinking, Llama 4 Maverick und Kimi K2 sind Modelle erschienen, die sich mit den besten proprietären LLMs wie GPT-5, Claude 4.6 oder Gemini 2.5 messen können (und diese in manchen Benchmarks sogar übertreffen).

In diesem Artikel findest du einen Überblick über die aktuell 50 besten Open-Source-LLMs mit ihren wichtigsten Benchmark-Scores und Lizenzen.

Zudem zeige ich dir, wie du freie LLMs einfach und kostenlos auf deinem Rechner nutzen kannst (ohne programmieren oder das Terminal nutzen zu müssen).

TL;DRDas Wichtigste in Kürze

GPT-OSS-120B (OpenAI), DeepSeek R1 und Qwen3-235B führen 2025 die Open-Source-Rankings an und übertreffen GPT-4 in vielen Benchmarks (MMLU: 90 %+, MATH: 97 %+)
50 Open-Source-LLMs mit verschiedenen Lizenzen verfügbar - von MIT über Apache 2.0 bis zu eingeschränkten kommerziellen Lizenzen
Neue 2025er-Modelle wie Llama 4 Maverick, Kimi K2 und Gemma 3 27B setzen neue Maßstäbe für Effizienz bei kleineren Modellgrößen
Lokale Nutzung mit Tools wie Ollama, LM Studio oder GPT4All möglich - benötigt aber leistungsstarke Hardware (RTX 4090+ empfohlen)

Open-Source-LLMs im Vergleich

#	Modell	MMLU	Math	Code	Hersteller	Lizenz
1	GPT-OSS-120B (117B MoE)	90,0 %	80,1 %	96,6 %	OpenAI	Apache 2.0
2	DeepSeek-R1 (671B MoE)	90,8 %	97,3 %	71,5 %	DeepSeek	MIT
3	Qwen3-235B-A22B-Thinking	87,0 %	92,3 %	74,1 %	Alibaba	Apache 2.0
4	Llama 4 Maverick (400B MoE)	80,5 %	69,8 %	43,4 %	Meta	Llama 4 Community
5	Kimi K2 (1T MoE)	97,4 %	71,6 %	53,7 %	Moonshot AI	MIT
6	DeepSeek-V3 (671B MoE)	88,5 %	90,2 %	85,0 %	DeepSeek	MIT
7	GPT-OSS-20B (20B MoE)	85,3 %	96,0 %	69,0 %	OpenAI	Apache 2.0
8	Llama 3.3 70B Instruct	86,0 %	77,3 %	83,0 %	Meta	Llama 3.3 Community
9	Qwen2.5-72B-Instruct	85,3 %	82,3 %	82,0 %	Alibaba	Qwen License
10	Llama 3.1 405B Instruct	88,6 %	81,1 %	73,8 %	Meta	Llama 3.1 Community
11	Gemma 3 27B	67,5 %	42,4 %	69,0 %	Google	Gemma Terms of Use
12	Command R+ (104B)	88,2 %	85,0 %	92,0 %	Cohere	CC BY-NC-4.0
13	Llama-3.1-Nemotron-70B	85,0 %	57,6 %	8,98	NVIDIA	Llama 3.1 Community
14	Mixtral-8x22B (141B MoE)	77,8 %	68,0 %	75,0 %	Mistral AI	Apache 2.0
15	Mistral Large 2 (123B)	84,0 %	76,9 %	82,0 %	Mistral AI	Mistral Research License
16	Phi-4 (14B)	56,1 %	82,6 %	80,4 %	Microsoft	MIT
17	Qwen3-32B-Instruct	83,5 %	77,0 %	78,0 %	Alibaba	Apache 2.0
18	OLMo 2 32B	74,0 %	78,6 %	84,0 %	Allen Institute	Apache 2.0
19	DBRX (132B MoE)	73,7 %	70,1 %	66,9 %	Databricks	Databricks Open Model
20	DeepSeek Coder V2 (236B MoE)	78,5 %	90,2 %	76,2 %	DeepSeek	MIT
21	Llama 3.1 70B Instruct	79,3 %	68,0 %	80,5 %	Meta	Llama 3.1 Community
22	Yi-34B	76,3 %	67,6 %	85,0 %	01.AI	Apache 2.0
23	Falcon 3 10B	73,1 %	42,5 %	58,0 %	TII	Falcon License
24	Qwen2.5-32B-Instruct	83,1 %	75,5 %	78,9 %	Alibaba	Apache 2.0
25	Mistral NeMo 12B	68,0 %	83,5 %	76,8 %	Mistral AI / NVIDIA	Apache 2.0
26	InternLM3 8B-Instruct	72,3 %	75,0 %	75,6 %	Shanghai AI Lab	Apache 2.0
27	Granite Code 34B	75,4 %	68,3 %	67,5 %	IBM	Apache 2.0
28	Falcon 180B	70,4 %	85,3 %	77,6 %	TII	Falcon License
29	WizardLM-2 8x22B	77,2 %	83,0 %	73,2 %	Microsoft	Apache 2.0
30	Qwen2-72B-Instruct	84,2 %	89,5 %	64,6 %	Alibaba	Apache 2.0
31	Mixtral-8x7B (46.7B MoE)	70,6 %	74,4 %	40,2 %	Mistral AI	Apache 2.0
32	Llama 3.1 8B Instruct	68,4 %	84,5 %	72,6 %	Meta	Llama 3.1 Community
33	Gemma 3 8B	70,9 %	77,9 %	56,0 %	Google	Gemma Terms of Use
34	Code Llama 70B Instruct	62,0 %	67,8 %	62,0 %	Meta	Llama 2 Community
35	Falcon 3 7B	67,4 %	39,2 %	70,8 %	TII	Falcon License
36	SOLAR 10.7B v1.0	66,0 %	69,9 %	71,0 %	Upstage	Apache 2.0
37	Mistral 7B v0.3	62,5 %	52,2 %	83,0 %	Mistral AI	Apache 2.0
38	Yi-1.5 34B	76,8 %	80,1 %	75,0 %	01.AI	Apache 2.0
39	OLMo 2 13B	68,2 %	71,4 %	82,1 %	Allen Institute	Apache 2.0
40	StarCoder2 15B	46,0 %	36,6 %	49,6 %	BigCode	BigCode Open RAIL-M v1
41	Phi-3 Medium (14B)	78,0 %	91,0 %	62,2 %	Microsoft	MIT
42	InternLM2-Chat-20B	67,0 %	79,6 %	67,1 %	Shanghai AI Lab	Apache 2.0
43	DeepSeek LLM 67B	71,3 %	63,4 %	40,0 %	DeepSeek	DeepSeek License
44	Vicuna 1.5 13B	55,0 %	48,3 %	81,6 %	LMSYS	Llama 2 Community
45	Zephyr 7B Beta	61,4 %	42,0 %	61,1 %	HuggingFace	MIT
46	Gemma 2 9B	71,3 %	68,6 %	51,8 %	Google	Gemma Terms of Use
47	OLMo 2 7B	64,1 %	62,5 %	79,8 %	Allen Institute	Apache 2.0
48	Baichuan 2 13B	59,5 %	58,1 %	52,8 %	Baichuan Inc.	Baichuan 2 License
49	Orca 2 13B	59,0 %	60,5 %	61,7 %	Microsoft	Microsoft Research License
50	Grok-1 (314B MoE)	73,0 %	62,9 %	63,2 %	xAI	Apache 2.0

Farbcodierung der Benchmark-Scores:

ExzellentTop-Bereich

GutÜberdurchschnittlich

DurchschnittSolide

SchwachUnterdurchschnittlich

1. Die wichtigsten Benchmarks erklärt

Um die Open-Source-LLMs objektiv zu vergleichen, nutze ich drei zentrale Benchmark-Kategorien:

MMLU / MMLU-Pro: Der Massive Multitask Language Understanding Benchmark testet allgemeines Wissen über 57 Fächer hinweg (STEM, Sozialwissenschaften, Geisteswissenschaften). MMLU-Pro ist die anspruchsvollere Variante mit weniger Kontamination. Top-Modelle erreichen hier 85–90 %.

MATH / GPQA: Diese Benchmarks testen mathematisches und wissenschaftliches Reasoning. MATH-500 enthält anspruchsvolle Mathematikaufgaben, während GPQA (Graduate-Level Physics Questions Answers) Expertenwissen in Biologie, Physik und Chemie testet. Top-Modelle erreichen hier 70–97 %.

HumanEval / LiveCodeBench: Diese Benchmarks testen Code-Generierung. HumanEval enthält Python-Programmieraufgaben, LiveCodeBench testet Code-Performance mit aktuellen, nicht kontaminierten Aufgaben. Top-Modelle erreichen hier 60–90 %.

Die Tabelle zeigt für jedes Modell drei Benchmark-Scores, die je nach Stärke des Modells variieren (z. B. Code-fokussierte Modelle haben höhere HumanEval-Scores).

2. Die Top-Modelle 2025/2026

GPT-OSS-120B von OpenAI führt die Rankings an (MMLU: 90,0 %, GPQA: 80,1 %, AIME: 96,6 %) und ist das erste Open-Weight-Modell von OpenAI seit GPT-2.

DeepSeek R1 mit seinen 671 Milliarden Parametern (nur 37B aktiv) übertrifft GPT-4 in vielen Bereichen (MMLU: 90,8 %, MATH-500: 97,3 %) und wurde mit nur $5,6 Millionen trainiert.

Qwen3-235B-A22B-Thinking von Alibaba setzt neue Maßstäbe für Reasoning (AIME25: 92,3 %, LiveCodeBench: 74,1 %) und übertrifft DeepSeek R1 in 17 von 23 Benchmarks.

Llama 4 Maverick von Meta erreicht mit nur 17B aktiven Parametern (von 400B total) beeindruckende Scores (MMLU-Pro: 80,5 %, GPQA: 69,8 %) und schlägt deutlich größere Modelle.

3. LLM-Lizenzen erklärt

Hier findest du einen Überblick über die am häufigsten verwendeten Lizenzen bei Open-Source-LLMs.

Warnung

Achtung: Bitte schaue dir immer die aktuellen Lizenzbestimmungen der LLMs noch einmal selbst an, bevor du sie nutzt. Lizenzbedingungen können sich jederzeit ändern.

MIT License

Eine sehr freizügige Open-Source-Lizenz, ähnlich wie Apache 2.0. Sie erlaubt die uneingeschränkte Nutzung, Modifikation und Weitergabe des LLMs, auch in proprietären Programmen, solange der Urheberrechtshinweis erhalten bleibt. DeepSeek V3 verwendet MIT mit einigen Einschränkungen für militärische Nutzung.

Llama 2 Community / Llama 3 Community

Unter den Lizenzen hat Meta Llama 2 und Llama 3 veröffentlicht. Sie erlauben die kostenlose Nutzung der LLMs für Forschung und kommerzielle Anwendungen mit bis zu 700 Millionen monatlich aktiven Nutzern. Der Quellcode und die Modellgewichte sind frei verfügbar.

Qwen License / Qianwen LICENSE

Die Qwen-Modelle werden unter verschiedenen Lizenzen veröffentlicht. Während kleinere Modelle oft unter Apache 2.0 lizenziert sind, haben größere Modelle wie Qwen2.5-72B spezielle Lizenzbedingungen, die kommerzielle Nutzung mit bestimmten Einschränkungen erlauben.

Apache 2.0

Eine sehr freizügige Open-Source-Lizenz, die nur minimale Beschränkungen vorsieht. Sie erlaubt die Nutzung, Modifikation und Weitergabe des LLMs, auch in proprietären Programmen, solange der Urheberrechtshinweis erhalten bleibt. Sie enthält keine Copyleft-Klausel.

CC BY-NC-4.0

Eine Creative-Commons-Lizenz, die es erlaubt, das LLM in jeglicher Form zu bearbeiten und zu teilen, jedoch nicht für kommerzielle Zwecke. Der Name des Urhebers muss genannt werden.

CC BY-NC-SA-4.0

Ähnlich wie CC BY-NC-4.0, jedoch mit der zusätzlichen Share-Alike-Bedingung. Das bedeutet, Forks oder bearbeitete Versionen eines LLMs müssen unter den gleichen Bedingungen weitergegeben werden.

nicht-kommerziell

Hier ist die Nutzung des LLMS für kommerzielle Zwecke untersagt. Was genau als „kommerziell" gilt, ist aber nicht immer eindeutig definiert oder eingegrenzt.

Meistens sind „nicht-kommerzielle" Modelle nur für Forschungszwecke oder zur privaten Nutzung freigegeben.

4. Open-Source-LLMs lokal auf dem eigenen Rechner nutzen

Open-Source-LLMs lokal auf dem eigenen Rechner zu nutzen, geht einfacher, als du vielleicht denkt:

1. Lade LM Studio herunter

Lade LM Studio von der Website herunter. Es ist kostenlos und für Mac, Windows und Linux verfügbar:

2. Installiere und öffne LM Studio

Im nächsten Schritt installierst du LM Studio auf deinem Rechner und öffnest es.

3. Lade gewünschte Open-Source-LLMs herunter

Jetzt musst du die Open-Source-LLMs in LM Studio herunterladen, die du nutzen möchtest.

Viele beliebte LLMs findest du bereits auf dem Startbildschirm. Um ein LLM herunterzuladen, klickst du einfach auf den blauen Download-Button:

Um bestimmte Open-Source-LLMs zu finden, kannst du auch die Suchfunktion nutzen:

4. Wichtig: Vor dem Download Systemvoraussetzungen beachten

Bevor du ein LLMs herunterlädst, solltest du dir die Systemvoraussetzungen anschauen.

Lllama 3 benötigt zum Beispiel mehr als 8 GB RAM und 4,92 GB freien Speicherplatz:

5. Mit dem Open-Source-LLM chatten

Nachdem du ein Open-Source-LLM heruntergeladen hast, kannst du es direkt in LM Studio nutzen.

Dazu klickst du einfach links in der Seitenleiste auf das Sprechblasen-Icon (?).

Die Benutzeroberfläche und die Einstellungsmöglichkeiten erinnern dabei an den OpenAI Playground:

Häufig gestellte Fragen zu Open-Source-LLMs