OpenClaw ist das am schnellsten wachsende Open-Source-Projekt der Geschichte. Mit dem Tool geht auch der ClawHub viral, der zugehörige Marketplace für Skills (Erweiterungen, die OpenClaw um neue Fähigkeiten erweitern). Über 44.000 Skills gibt es inzwischen. Jeder kann einen hochladen. Es gibt keine verpflichtende Sicherheitsprüfung.
Das hat mich neugierig gemacht:
Wie sicher sind diese Skills eigentlich? Ich habe 16.797 ClawHub-Skills aus dem öffentlichen GitHub-Mirror heruntergeladen und mit einem statischen Security-Scanner analysiert. Das Ergebnis ist eindeutig. Fast die Hälfte der Skills zeigt mindestens einen Sicherheitsbefund.
Wichtiger Hinweis vorab:
Es handelt sich um technische Signale eines regelbasierten Scanners, nicht um eine Malware-Diagnose. Jeder Treffer muss manuell geprüft werden, um zu wissen, ob er echt oder ein Falschpositiv ist. Trotzdem zeichnen die Zahlen ein klares Bild.
Wer Skills blind installiert, geht ein Risiko ein. Und das Risiko ist höher, als viele denken.
- 16.797 ClawHub-Skills gescannt, 48,4 % mit mindestens einem Sicherheitsbefund
- 182.258 Trefferinstanzen insgesamt: 14,7 % kritisch, 76,6 % hoch, 8,7 % mittel
- Supply-Chain-Risiken (21,4 %) und Datenexfiltration (20,1 %) sind am weitesten verbreitet
1. Was ist der ClawHub?
Der ClawHub ist der offizielle Marketplace für OpenClaw. Skills sind dort das, was Apps im App Store sind. Kleine Pakete, die OpenClaw um neue Fähigkeiten erweitern. Das kann ein PDF-Parser sein, ein Datenbank-Connector, ein Wrapper um eine externe API oder ein kompletter Workflow.
Die Installation ist denkbar einfach. Ein einziger Befehl im Terminal, und der Skill ist einsatzbereit. Genau das macht den ClawHub so attraktiv. Und gleichzeitig so riskant.
Ein paar Zahlen zur Einordnung:
- Über 44.000 Skills insgesamt im Marketplace
- 12.400 aktive Skill-Entwickler
- Nur 6,8 % der Entwickler sind verifiziert
- Über 2,3 Millionen Skill-Installationen bisher
- Durchschnittlich 127 Downloads pro Skill
Das Problem daran:
OpenClaw wächst schneller, als die Sicherheitsprüfung hinterherkommt. Bis heute gibt es keinen verpflichtenden Security-Review für neue Skills. Jeder kann einen Skill hochladen, und jeder kann ihn herunterladen. Das ist Open Source in seiner reinsten Form. Aber es ist auch ein Einfallstor.
2. Die Methodik hinter der Analyse
Für die Analyse habe ich nicht die Skills direkt vom ClawHub-Marketplace heruntergeladen, sondern aus dem öffentlichen GitHub-Mirror (clawhub-skills-repo). Im Repo sind alle Skills als Ordnerstruktur gespiegelt, sodass sich die komplette Datenbank mit einem einzigen Clone lokal nachbauen lässt. Ich habe lediglich rund 168 Skills direkt vom Marketplace heruntergeladen. Die restlichen haben einen HTTP 429-Fehler (Rate Limit) zurückgegeben. Dieses Vorgehen war also nicht praktikabel für 16.000+ Skills.
Am Ende hatte ich 16.797 Skills aus dem GitHub-Mirror, die sich erfolgreich scannen ließen.
Eine Einschränkung gibt es allerdings.
Der Mirror ist ein Snapshot. Skills, die zwischenzeitlich aus dem offiziellen Marketplace entfernt wurden, können im Mirror weiterhin enthalten sein. Und neue Skills, die nach dem letzten Mirror-Sync hochgeladen wurden, fehlen hier.
Der Scanner ist ein deterministisches Werkzeug. Das bedeutet, er arbeitet mit festen Regeln (Regex und Heuristiken), kein LLM, keine Wahrscheinlichkeiten. Jede Zeile Code und jede Datei wird gegen eine Liste bekannter Risikomuster geprüft. Findet der Scanner ein Muster, legt er einen Treffer an, kategorisiert ihn und weist ihm einen Schweregrad zu.
Die Kategorien sind:
- Supply Chain: unpinned
pip/npm-Installationen, curl-to-bash, Package-Tampering - Datenexfiltration: SSH-Key-Zugriffe, hartcodierte Endpunkte, Browser-Daten-Zugriffe
- Rechteausweitung: sudo, Capability-Missbrauch, Root-Ausführung
- Persistenz: Cron-Jobs, Profile-Änderungen, CLAUDE.md-Writes
- Destruktive Muster:
rm -rf,shutil.rmtree, Massenlöschungen - Code Execution: eval, Shell-Pipes, Reverse Shells, unsichere Deserialisierung
- Hardcoded Secrets: eingebettete API-Keys, Passwörter, Tokens
- Prompt Injection: Versuche, Rollen oder Safety-Anweisungen zu überschreiben
- Verschleierung: Homoglyphen, Unicode-Tricks, ungewöhnliche Encodings
- SSRF, Sandbox Escape, Verdächtige Dateien, Ressourcen-Erschöpfung als weitere Kategorien
Zusätzlich habe ich einen Nachfilter verwendet, der bekannte Falschpositive entfernt. Treffer in Markdown-Codeblöcken (typische Tutorial-Beispiele wie curl-Kommandos), Homoglyphen in mehrsprachiger Dokumentation und HTTP-Beispiele in .md-Dateien werden ausgeblendet. Insgesamt hat der Nachfilter 261.451 Instanzen entfernt. Ohne ihn wären die Zahlen deutlich höher, aber auch deutlich unschärfer.
3. Die Ergebnisse im Überblick
Die wichtigste Zahl aus der Analyse zeigt, wie die 16.797 gescannten Skills sich auf „mit Befund“ und „ohne Befund“ verteilen:
Von 16.797 gescannten Skills haben 8.129 mindestens einen verbleibenden Sicherheitsbefund. Das entspricht 48,4 %. Fast jeder zweite Skill im ClawHub zeigt also mindestens ein technisches Warnsignal.
Die restlichen 51,6 % der Skills haben nach dem Nachfilter keine Treffer mehr.
Allerdings:
Das heißt nicht automatisch, dass diese Skills sicher sind. Es heißt nur, dass der Scanner mit seinen festen Regeln nichts mehr findet. Ein Angreifer, der seine Muster geschickt versteckt, rutscht hier problemlos durch.
Die Gesamtzahl der Treffer ist ebenfalls eindrucksvoll. 182.258 einzelne Trefferinstanzen sind zusammengekommen. Ein Skill kann dabei mehrere Treffer gleichzeitig haben. Das erklärt, warum manche Publisher im weiteren Verlauf der Analyse Zehntausende Treffer aufweisen, obwohl sie nur wenige Skills veröffentlicht haben.
26.807 Treffer wurden als kritisch eingestuft. Das sind 14,7 % aller Instanzen. Darunter fallen eindeutig gefährliche Muster wie eingebettete Zugangsdaten, Remote-Code-Execution oder hartcodierte Endpunkte, die wie Datenabfluss aussehen.
4. Verteilung der Schweregrade
Die Verteilung nach Schweregrad zeigt, wie kritisch die Treffer insgesamt sind:
Hoch dominiert mit großem Abstand. 76,6 % aller Treffer fallen in diese Kategorie. Das liegt zu einem guten Teil an Verschleierungsmustern wie Homoglyphen (kyrillische oder griechische Zeichen, die wie lateinische aussehen) und unpinned Installationen. Beide Muster sind für sich genommen noch kein Beweis für böse Absichten, aber sie gehören zu den typischen Anzeichen, bei denen man genauer hinschauen sollte.
Kritisch macht 14,7 % aus. Das sind 26.807 einzelne Treffer über alle Skills verteilt. Hier geht es um Dinge wie hartcodierte API-Keys, eingebettete Passwörter, Shell-Pipes mit eval oder direkte Ausführung fremder Skripte über curl und bash.
Mittel liegt bei 8,7 %. Das sind die Treffer, die auffällig, aber nicht direkt kritisch sind. Bestimmte Dateizugriffe, Konfigurationsänderungen oder kleinere Privilegien-Anfragen. Der Scanner hat sie gesehen, eine manuelle Prüfung könnte sie aber auch als harmlos einstufen.
5. Die Bedrohungskategorien
Jetzt wird es interessant. Die Scanner-Treffer lassen sich in 13 Kategorien aufteilen. Dabei gibt es zwei völlig verschiedene Blickwinkel, die beide wichtig sind.
5.1. Nach Anteil der betroffenen Skills
Die folgende Grafik zeigt, wie viel Prozent der 16.797 Skills mindestens einen Treffer in der jeweiligen Kategorie haben:
Supply Chain führt mit 21,4 %. Rund jeder fünfte Skill enthält Muster, die auf unpinned Installationen, curl-to-bash oder Package-Tampering hindeuten. Das ist nicht überraschend. Viele legitime Skills erwarten, dass Software nachinstalliert wird. Das ist normal für Automatisierung, erhöht aber das Supply-Chain-Risiko, wenn der Nutzer den Befehl blind ausführt.
Datenexfiltration liegt dicht dahinter mit 20,1 %. Etwa jeder fünfte Skill enthält Muster, die nach Datenabfluss aussehen können. Das kann ein Zugriff auf sensible Verzeichnisse sein, ein Aufruf an einen hartcodierten Endpunkt oder eine Netzwerkoperation, die nicht sofort erklärbar ist. Wichtig dabei, es sind Muster, keine Beweise.
Rechteausweitung (12,1 %), Persistenz (9,7 %) und destruktive Muster (9,0 %) folgen. Die drei Kategorien beschreiben jeweils, wie ein Skill über seine eigentliche Aufgabe hinaus ins System eingreifen könnte.
5.2. Nach Anteil an allen Trefferinstanzen
Dieser zweite Blickwinkel zeigt, welche Kategorie die meisten Treffer produziert. Ein Skill kann hier mehrere tausend Treffer gleichzeitig haben, sodass die Verteilung ganz anders aussieht als oben:
Verschleierung dominiert mit 55,6 %. Das ist ein spannender Befund. Nur 6,8 % der Skills sind überhaupt betroffen. Aber diese wenigen Skills enthalten tausende Einzeltreffer pro Datei. Homoglyphen, Unicode-Tricks und ungewöhnliche Encodings werden massenhaft eingesetzt. Ob das Absicht ist (zur Verschleierung von Funktionen) oder schlicht eine mehrsprachige Dokumentation, lässt sich nur manuell klären.
Datenexfiltration steht auf Platz 2 mit 17,3 % der Treffer. Supply Chain auf Platz 3 mit 7,0 %. Dann folgen Rechteausweitung (5,9 %), Persistenz (3,9 %) und destruktive Muster (3,4 %).
6. Was die wichtigsten Kategorien bedeuten
Die abstrakten Kategorienamen helfen nur bedingt weiter. Hier kommt eine kurze Erklärung der sechs häufigsten Kategorien mit konkreten Beispielen. Damit du ungefähr weißt, worauf der Scanner eigentlich reagiert.
6.1. Supply Chain (21,4 %)
Der Scanner markiert Installationsanweisungen, die ohne Versionsangabe auskommen. Also Befehle wie pip install requests statt pip install requests==2.31.0. Oder Shell-Pipes wie curl https://example.com/install.sh | bash. Solche Befehle sind in der Open-Source-Welt normal, aber sie haben einen Haken. Wird das Paket oder das Skript später kompromittiert, kompromittiert es auch jeden, der es neu installiert.
6.2. Datenexfiltration (20,1 %)
Hier geht es um Muster, die nach Datenabfluss aussehen können. Zugriffe auf ~/.ssh/, das Lesen von .env-Dateien, hartcodierte IP-Adressen wie http://127.0.0.1:8765 oder verdächtige HTTP-Anfragen an Endpunkte außerhalb der offiziellen Anbieter. Nach dem Nachfilter bleiben vor allem Treffer außerhalb von Markdown-Codeblöcken übrig.
6.3. Rechteausweitung (12,1 %)
Jedes Mal, wenn ein Skript mit sudo arbeitet, wenn es Root-Rechte anfordert oder wenn es Systemkonfigurationen ändert, landet das in dieser Kategorie. Das ist für Systemtools völlig normal. Ein Skill, der Pakete installiert, braucht oft sudo. Ein Skill, der nur PDFs parst, eigentlich nicht. Der Scanner kann den Unterschied nicht erkennen. Du aber schon, wenn du dir den Code anschaust.
6.4. Persistenz (9,7 %)
Persistenz bedeutet, dass sich ein Skill dauerhaft im System einnistet. Klassische Muster sind Cron-Jobs, Änderungen an Shell-Profiles (.bashrc, .zshrc) oder neue Einträge in Autostart-Verzeichnissen. Auch das Schreiben in CLAUDE.md-Dateien fällt in diese Kategorie. Persistenz ist nicht per se böse, aber sie sollte immer transparent sein.
6.5. Destruktive Muster (9,0 %)
Massenlöschungen mit rm -rf, shutil.rmtree oder vergleichbaren Befehlen. Manchmal ist das legitim (ein Cleanup-Skill muss nun mal löschen können). Manchmal ist es ein Unfall, der wartet zu passieren. Und im schlimmsten Fall ist es Absicht.
6.6. Code Execution (8,8 %)
Unsichere Ausführung von fremdem Code. eval(), exec(), unsichere Deserialisierung mit pickle, Reverse Shells, Shell-Pipes mit Nutzereingaben. Der Scanner kennt die typischen Muster und markiert sie. Im Zweifel bedeutet ein Treffer hier, dass du die Finger davon lassen solltest, bis du den Code verstanden hast.
7. Die auffälligsten Skill-Publisher
Wenn man die Treffer pro Publisher aggregiert, entsteht ein interessantes Bild. Ein einziger Publisher (pepe276) ist für 37.978 Treffer verantwortlich. Das sind 20,8 % aller Treffer im gesamten ClawHub. Die folgende Tabelle zeigt die Top 20 der auffälligsten Publisher, sortiert nach Gesamtzahl der Treffer:
Publisher | Treffer gesamt | Kritisch | Hoch | Mittel | Hauptrisiko |
|---|---|---|---|---|---|
pepe276 | 37.978 | 19 | 37.948 | 11 | Auffällig |
cooperun | 5.201 | 4.982 | 192 | 27 | Kritisch |
yuangu260 | 4.582 | 26 | 4.550 | 6 | Auffällig |
jimliu | 4.575 | 6 | 4.555 | 14 | Auffällig |
ciklopentan | 4.235 | 2 | 4.233 | 0 | Auffällig |
keenone | 2.681 | 3 | 2.677 | 1 | Auffällig |
horosheff | 2.441 | 0 | 2.440 | 1 | Mehrheitlich Hoch |
qiumr | 2.421 | 6 | 2.412 | 3 | Auffällig |
snail3d | 2.149 | 363 | 1.650 | 136 | Kritisch |
yoborlon-alpha | 2.059 | 1 | 2.058 | 0 | Auffällig |
deerleo | 1.687 | 8 | 1.675 | 4 | Auffällig |
keeper1978 | 1.591 | 0 | 1.591 | 0 | Mehrheitlich Hoch |
mirra87654321 | 1.319 | 1 | 1.318 | 0 | Auffällig |
satoshistackalotto | 1.250 | 0 | 1.250 | 0 | Mehrheitlich Hoch |
rsvbitrix | 1.230 | 1 | 1.229 | 0 | Auffällig |
h8kxrfp68z-lgtm | 1.161 | 6 | 1.154 | 1 | Auffällig |
mixx85 | 1.041 | 25 | 1.012 | 4 | Auffällig |
chorus12 | 1.008 | 0 | 1.008 | 0 | Mehrheitlich Hoch |
s7cret | 950 | 0 | 938 | 12 | Mehrheitlich Hoch |
offflinerpsy | 941 | 1 | 938 | 2 | Auffällig |
Die vollständige Liste umfasst 50 Publisher. Hier habe ich aus Platzgründen nur die Top 20 dargestellt. Besonders bemerkenswert sind zwei Muster in den Daten.
Fakt ist:
Der Publisher pepe276 sticht am stärksten heraus. Mit knapp 38.000 Treffern liegt er weit an der Spitze. Fast alle davon sind Hoch-Treffer, was auf sehr viele Verschleierungs- oder Supply-Chain-Muster hindeutet. Eine einzelne Person hinter so einer Zahl ist ungewöhnlich. Entweder hat der Publisher sehr viele Skills veröffentlicht oder einzelne Skills mit besonders umfangreichem Code.
Noch brisanter ist cooperun. Dieser Publisher sticht durch 4.982 kritische Treffer heraus. Das ist deutlich mehr als bei allen anderen und rechtfertigt eine manuelle Prüfung seiner Skills. „Kritisch“ bedeutet, dass der Scanner eindeutige Muster für hochriskante Operationen gefunden hat.
8. Wie viele Falschpositive wurden entfernt?
Bevor du die Zahlen mit anderen Analysen vergleichst, solltest du wissen, wie stark die Roh-Treffer bereinigt wurden. Der Nachfilter entfernt bekannte Falschpositive aus drei Quellen:
Zusammen wurden 261.451 Instanzen aus der Roh-Analyse entfernt. Das ist mehr als die finale Trefferzahl von 182.258. Ohne den Nachfilter wären die Zahlen also nicht nur unhandlich, sondern auch irreführend.
Homoglyphen in Markdown (160.889 entfernte Treffer) sind das häufigste Falschpositiv. Viele Skills haben Dokumentation auf Chinesisch, Russisch oder Arabisch. Der Scanner erkennt die Zeichen dieser Sprachen als „verdächtig“, weil sie wie verschleierter Code aussehen. In Wirklichkeit ist es einfach eine Übersetzung.
HTTP-Beispiele in Dokumentation (54.034 Treffer) sind das zweite große Falschpositiv. Die Pattern-ID SC-004 beschreibt API-Beispiele in .md-Dateien. Im Quellcode wären sie ein Signal. In der Doku sind sie harmlos.
Code in Markdown-Zäunen (46.528 Treffer) ist der dritte Block. Die meisten SKILL.md-Dateien enthalten Beispiele wie curl -X POST ... oder pip install tensorflow. Der Scanner würde diese Beispiele als Treffer zählen. Der Nachfilter entfernt sie.
Was der Nachfilter nicht leistet:
Er kann echte Risiken in Codeblöcken übersehen. Wenn ein Angreifer bewusst Schadcode in einen Markdown-Block packt, um ihn zu verstecken, filtert der Nachfilter den Treffer raus. Das ist der Preis für weniger Rauschen.
9. Was das für dich bedeutet
Keine Panik. Aber auch kein blindes Vertrauen. Die Zahlen sind ein Weckruf, kein Weltuntergang. Hier sind meine konkreten Empfehlungen, wenn du ClawHub-Skills nutzt:
- Prüfe den Publisher. Verifizierte Publisher (die 6,8 %) sind nicht automatisch sicher, aber sie haben zumindest eine Identitätsprüfung durchlaufen. Ist der Publisher unbekannt und hat wenig Reputation, installiere den Skill nicht blind.
- Lies die SKILL.md. Wenn du einen Skill wirklich brauchst, öffne die SKILL.md und die Skripte, die dort referenziert werden. Schau nach sudo-Befehlen, curl-Installationen, Zugriffen auf
.sshoder.env. Wenn du Code nicht verstehst, frag einen Kollegen oder lass ihn durch Claude oder ChatGPT erklären. - Nutze eine Sandbox. OpenClaw unterstützt eingeschränkte Berechtigungen. Gib einem Skill nur die Rechte, die er wirklich braucht. Keine Root-Rechte für einen PDF-Parser. Kein Netzwerkzugriff für einen Datei-Renamer.
- Halte OpenClaw aktuell. Neue Versionen enthalten oft Sicherheits-Fixes. CVE-2026-25253 (Codeausführung per Mausklick) wurde zum Beispiel innerhalb von 48 Stunden gepatcht. Wer die Updates auslässt, bleibt verwundbar.
- Vermeide sensible Daten. Nutze ClawHub-Skills nicht mit Zugangsdaten zu Produktivsystemen, API-Keys für Zahlungsdienstleister oder persönlichen Gesundheitsdaten. Solange der Marketplace keinen verpflichtenden Security-Review hat, ist jeder Skill ein potenzielles Risiko.
Wenn dir Sicherheit wichtiger ist als Feature-Vielfalt, schau dir die sicheren OpenClaw-Alternativen an. Projekte wie OpenFang und IronClaw sind von Anfang an auf Security-First ausgelegt. Die Auswahl an Skills ist dort deutlich kleiner, aber die Qualitätskontrolle ist strenger.
Die OpenClaw Foundation arbeitet an einem verbindlichen Security-Review-Prozess für den ClawHub. Bis dahin bleibt die Verantwortung bei den Nutzern. Augen auf beim Skill-Einkauf.






