Was ist ein ClawHub-Skill?

Ein ClawHub-Skill ist eine Erweiterung für den Open-Source-KI-Agenten OpenClaw. Skills erweitern OpenClaw um neue Fähigkeiten, etwa das Lesen von PDFs, das Durchsuchen von Datenbanken oder die Integration externer APIs. Sie werden im ClawHub Marketplace bereitgestellt und können mit einem einzigen Befehl installiert werden.

Wie viele ClawHub-Skills sind gefährlich?

Pauschal „gefährlich“ lässt sich nicht sagen. Unser statischer Scanner findet bei 48,4 % der 16.797 untersuchten Skills mindestens einen Sicherheitsbefund. Das bedeutet aber nicht automatisch, dass diese Skills böswillig sind. Es sind technische Signale, die eine manuelle Prüfung nahelegen. Ohne semantische Analyse und Laufzeit-Tests kann ein Scanner keine verbindliche Aussage über Schadsoftware treffen.

Was bedeuten die Schweregrade Kritisch, Hoch und Mittel?

Kritisch markiert Muster, die direkt zu einem Sicherheitsvorfall führen können, etwa hartcodierte Zugangsdaten oder eindeutige Remote-Code-Execution-Patterns. Hoch umfasst ernste Signale wie verdächtige Netzwerkaufrufe, Homoglyphen oder unpinned Dependencies. Mittel sind weniger kritische, aber auffällige Muster wie bestimmte Dateizugriffe. Die Einstufung bezieht sich immer auf das Muster, nicht auf den Gesamtskill.

Wie erkenne ich einen gefährlichen Skill?

Öffne die SKILL.md und schau dir die Skripte an, die ausgeführt werden. Achte auf unpinned Installationen (pip install ohne Version), Aufrufe an externe IP-Adressen, sudo-Befehle, das Lesen von SSH-Keys oder .env-Dateien, und auf versteckte Anweisungen in Kommentaren oder Markdown. Wenn der Publisher nicht verifiziert ist und der Skill viele Treffer in kritischen Kategorien hat, installiere ihn nicht.

Warum dominiert Verschleierung die Trefferstatistik?

Die Kategorie Verschleierung macht 55,6 % aller Trefferinstanzen aus, weil ein einzelner Skill tausende Treffer in dieser Kategorie produzieren kann. Der Scanner zählt jede auffällige Zeichenkette einzeln. Auf Skill-Ebene betrachtet sind nur 6,8 % der Skills betroffen. Das ist der Unterschied zwischen „wie viele Instanzen insgesamt“ und „wie viele Skills sind betroffen“.

Wer hat die Analyse durchgeführt?

Die Analyse basiert auf dem öffentlichen GitHub-Mirror der ClawHub-Skills. Verwendet wurde ein deterministischer Static Scanner auf Regex- und Heuristik-Basis. Die Rohdaten wurden durch einen Nachfilter bereinigt, der typische Falschpositive aus Tutorial-Dokumentation entfernt (161.000 Homoglyphen, 47.000 Code-Zäune, 54.000 HTTP-Beispiele). Für verbindliche Sicherheitsentscheidungen empfehlen wir trotzdem eine manuelle Prüfung mit Sandbox.

ClawHub-Skills analysiert: 48 % mit Sicherheitsproblemen

OpenClaw ist das am schnellsten wachsende Open-Source-Projekt der Geschichte. Mit dem Tool geht auch der ClawHub viral, der zugehörige Marketplace für Skills (Erweiterungen, die OpenClaw um neue Fähigkeiten erweitern). Über 44.000 Skills gibt es inzwischen. Jeder kann einen hochladen. Es gibt keine verpflichtende Sicherheitsprüfung.

Das hat mich neugierig gemacht:

Wie sicher sind diese Skills eigentlich? Ich habe 16.797 ClawHub-Skills aus dem öffentlichen GitHub-Mirror heruntergeladen und mit einem statischen Security-Scanner analysiert. Das Ergebnis ist eindeutig. Fast die Hälfte der Skills zeigt mindestens einen Sicherheitsbefund.

Wichtiger Hinweis vorab:

Es handelt sich um technische Signale eines regelbasierten Scanners, nicht um eine Malware-Diagnose. Jeder Treffer muss manuell geprüft werden, um zu wissen, ob er echt oder ein Falschpositiv ist. Trotzdem zeichnen die Zahlen ein klares Bild.

Wer Skills blind installiert, geht ein Risiko ein. Und das Risiko ist höher, als viele denken.

TL;DRDas Wichtigste in Kürze

16.797 ClawHub-Skills gescannt, 48,4 % mit mindestens einem Sicherheitsbefund
182.258 Trefferinstanzen insgesamt: 14,7 % kritisch, 76,6 % hoch, 8,7 % mittel
Supply-Chain-Risiken (21,4 %) und Datenexfiltration (20,1 %) sind am weitesten verbreitet

1. Was ist der ClawHub?

Der ClawHub ist der offizielle Marketplace für OpenClaw. Skills sind dort das, was Apps im App Store sind. Kleine Pakete, die OpenClaw um neue Fähigkeiten erweitern. Das kann ein PDF-Parser sein, ein Datenbank-Connector, ein Wrapper um eine externe API oder ein kompletter Workflow.

Die Installation ist denkbar einfach. Ein einziger Befehl im Terminal, und der Skill ist einsatzbereit. Genau das macht den ClawHub so attraktiv. Und gleichzeitig so riskant.

Ein paar Zahlen zur Einordnung:

Über 44.000 Skills insgesamt im Marketplace
12.400 aktive Skill-Entwickler
Nur 6,8 % der Entwickler sind verifiziert
Über 2,3 Millionen Skill-Installationen bisher
Durchschnittlich 127 Downloads pro Skill

Das Problem daran:

OpenClaw wächst schneller, als die Sicherheitsprüfung hinterherkommt. Bis heute gibt es keinen verpflichtenden Security-Review für neue Skills. Jeder kann einen Skill hochladen, und jeder kann ihn herunterladen. Das ist Open Source in seiner reinsten Form. Aber es ist auch ein Einfallstor.

2. Die Methodik hinter der Analyse

Für die Analyse habe ich nicht die Skills direkt vom ClawHub-Marketplace heruntergeladen, sondern aus dem öffentlichen GitHub-Mirror (clawhub-skills-repo). Im Repo sind alle Skills als Ordnerstruktur gespiegelt, sodass sich die komplette Datenbank mit einem einzigen Clone lokal nachbauen lässt. Ich habe lediglich rund 168 Skills direkt vom Marketplace heruntergeladen. Die restlichen haben einen HTTP 429-Fehler (Rate Limit) zurückgegeben. Dieses Vorgehen war also nicht praktikabel für 16.000+ Skills.

Am Ende hatte ich 16.797 Skills aus dem GitHub-Mirror, die sich erfolgreich scannen ließen.

Eine Einschränkung gibt es allerdings.

Der Mirror ist ein Snapshot. Skills, die zwischenzeitlich aus dem offiziellen Marketplace entfernt wurden, können im Mirror weiterhin enthalten sein. Und neue Skills, die nach dem letzten Mirror-Sync hochgeladen wurden, fehlen hier.

Der Scanner ist ein deterministisches Werkzeug. Das bedeutet, er arbeitet mit festen Regeln (Regex und Heuristiken), kein LLM, keine Wahrscheinlichkeiten. Jede Zeile Code und jede Datei wird gegen eine Liste bekannter Risikomuster geprüft. Findet der Scanner ein Muster, legt er einen Treffer an, kategorisiert ihn und weist ihm einen Schweregrad zu.

Die Kategorien sind:

Supply Chain: unpinned pip/npm-Installationen, curl-to-bash, Package-Tampering
Datenexfiltration: SSH-Key-Zugriffe, hartcodierte Endpunkte, Browser-Daten-Zugriffe
Rechteausweitung: sudo, Capability-Missbrauch, Root-Ausführung
Persistenz: Cron-Jobs, Profile-Änderungen, CLAUDE.md-Writes
Destruktive Muster: rm -rf, shutil.rmtree, Massenlöschungen
Code Execution: eval, Shell-Pipes, Reverse Shells, unsichere Deserialisierung
Hardcoded Secrets: eingebettete API-Keys, Passwörter, Tokens
Prompt Injection: Versuche, Rollen oder Safety-Anweisungen zu überschreiben
Verschleierung: Homoglyphen, Unicode-Tricks, ungewöhnliche Encodings
SSRF, Sandbox Escape, Verdächtige Dateien, Ressourcen-Erschöpfung als weitere Kategorien

Zusätzlich habe ich einen Nachfilter verwendet, der bekannte Falschpositive entfernt. Treffer in Markdown-Codeblöcken (typische Tutorial-Beispiele wie curl-Kommandos), Homoglyphen in mehrsprachiger Dokumentation und HTTP-Beispiele in .md-Dateien werden ausgeblendet. Insgesamt hat der Nachfilter 261.451 Instanzen entfernt. Ohne ihn wären die Zahlen deutlich höher, aber auch deutlich unschärfer.

Hinweis

Diese Zahlen sind Indikatoren, keine Beweise. Ein Scanner-Treffer ist kein Schuldspruch. Für verbindliche Sicherheitsentscheidungen brauchst du manuelle Code-Reviews und Laufzeit-Tests in einer Sandbox. Der Scanner kann echte Risiken übersehen, und er kann harmlose Dokumentation fälschlich als Risiko markieren.

3. Die Ergebnisse im Überblick

Die wichtigste Zahl aus der Analyse zeigt, wie die 16.797 gescannten Skills sich auf „mit Befund“ und „ohne Befund“ verteilen:

Ohne Befund: 8.668 Skills

Mit Sicherheitsbefund: 8.129 Skills

Quelle: eigene Analyse, Static-Scanner mit Nachfilter

CC BY 4.0

gradually.ai

Von 16.797 gescannten Skills haben 8.129 mindestens einen verbleibenden Sicherheitsbefund. Das entspricht 48,4 %. Fast jeder zweite Skill im ClawHub zeigt also mindestens ein technisches Warnsignal.

Die restlichen 51,6 % der Skills haben nach dem Nachfilter keine Treffer mehr.

Allerdings:

Das heißt nicht automatisch, dass diese Skills sicher sind. Es heißt nur, dass der Scanner mit seinen festen Regeln nichts mehr findet. Ein Angreifer, der seine Muster geschickt versteckt, rutscht hier problemlos durch.

Die Gesamtzahl der Treffer ist ebenfalls eindrucksvoll. 182.258 einzelne Trefferinstanzen sind zusammengekommen. Ein Skill kann dabei mehrere Treffer gleichzeitig haben. Das erklärt, warum manche Publisher im weiteren Verlauf der Analyse Zehntausende Treffer aufweisen, obwohl sie nur wenige Skills veröffentlicht haben.

26.807 Treffer wurden als kritisch eingestuft. Das sind 14,7 % aller Instanzen. Darunter fallen eindeutig gefährliche Muster wie eingebettete Zugangsdaten, Remote-Code-Execution oder hartcodierte Endpunkte, die wie Datenabfluss aussehen.

4. Verteilung der Schweregrade

Die Verteilung nach Schweregrad zeigt, wie kritisch die Treffer insgesamt sind:

Quelle: eigene Analyse, Static-Scanner mit Nachfilter

CC BY 4.0

gradually.ai

Hoch dominiert mit großem Abstand. 76,6 % aller Treffer fallen in diese Kategorie. Das liegt zu einem guten Teil an Verschleierungsmustern wie Homoglyphen (kyrillische oder griechische Zeichen, die wie lateinische aussehen) und unpinned Installationen. Beide Muster sind für sich genommen noch kein Beweis für böse Absichten, aber sie gehören zu den typischen Anzeichen, bei denen man genauer hinschauen sollte.

Kritisch macht 14,7 % aus. Das sind 26.807 einzelne Treffer über alle Skills verteilt. Hier geht es um Dinge wie hartcodierte API-Keys, eingebettete Passwörter, Shell-Pipes mit eval oder direkte Ausführung fremder Skripte über curl und bash.

Mittel liegt bei 8,7 %. Das sind die Treffer, die auffällig, aber nicht direkt kritisch sind. Bestimmte Dateizugriffe, Konfigurationsänderungen oder kleinere Privilegien-Anfragen. Der Scanner hat sie gesehen, eine manuelle Prüfung könnte sie aber auch als harmlos einstufen.

5. Die Bedrohungskategorien

Jetzt wird es interessant. Die Scanner-Treffer lassen sich in 13 Kategorien aufteilen. Dabei gibt es zwei völlig verschiedene Blickwinkel, die beide wichtig sind.

5.1. Nach Anteil der betroffenen Skills

Die folgende Grafik zeigt, wie viel Prozent der 16.797 Skills mindestens einen Treffer in der jeweiligen Kategorie haben:

Quelle: eigene Analyse, Static-Scanner mit Nachfilter

CC BY 4.0

gradually.ai

Supply Chain führt mit 21,4 %. Rund jeder fünfte Skill enthält Muster, die auf unpinned Installationen, curl-to-bash oder Package-Tampering hindeuten. Das ist nicht überraschend. Viele legitime Skills erwarten, dass Software nachinstalliert wird. Das ist normal für Automatisierung, erhöht aber das Supply-Chain-Risiko, wenn der Nutzer den Befehl blind ausführt.

Datenexfiltration liegt dicht dahinter mit 20,1 %. Etwa jeder fünfte Skill enthält Muster, die nach Datenabfluss aussehen können. Das kann ein Zugriff auf sensible Verzeichnisse sein, ein Aufruf an einen hartcodierten Endpunkt oder eine Netzwerkoperation, die nicht sofort erklärbar ist. Wichtig dabei, es sind Muster, keine Beweise.

Rechteausweitung (12,1 %), Persistenz (9,7 %) und destruktive Muster (9,0 %) folgen. Die drei Kategorien beschreiben jeweils, wie ein Skill über seine eigentliche Aufgabe hinaus ins System eingreifen könnte.

5.2. Nach Anteil an allen Trefferinstanzen

Dieser zweite Blickwinkel zeigt, welche Kategorie die meisten Treffer produziert. Ein Skill kann hier mehrere tausend Treffer gleichzeitig haben, sodass die Verteilung ganz anders aussieht als oben:

Quelle: eigene Analyse, Static-Scanner mit Nachfilter

CC BY 4.0

gradually.ai

Verschleierung dominiert mit 55,6 %. Das ist ein spannender Befund. Nur 6,8 % der Skills sind überhaupt betroffen. Aber diese wenigen Skills enthalten tausende Einzeltreffer pro Datei. Homoglyphen, Unicode-Tricks und ungewöhnliche Encodings werden massenhaft eingesetzt. Ob das Absicht ist (zur Verschleierung von Funktionen) oder schlicht eine mehrsprachige Dokumentation, lässt sich nur manuell klären.

Datenexfiltration steht auf Platz 2 mit 17,3 % der Treffer. Supply Chain auf Platz 3 mit 7,0 %. Dann folgen Rechteausweitung (5,9 %), Persistenz (3,9 %) und destruktive Muster (3,4 %).

Hinweis

Die Kategorie-Prozente in beiden Charts summieren sich nicht zu 100 %. Ein Skill kann in mehreren Kategorien gleichzeitig vorkommen. Und die beiden Sichtweisen („Anteil der Skills“ und „Anteil der Instanzen“) beantworten unterschiedliche Fragen. Die Skill-Sicht zeigt, wie weit verbreitet ein Problem ist. Die Instanz-Sicht zeigt, wo die meisten einzelnen Treffer landen.

6. Was die wichtigsten Kategorien bedeuten

Die abstrakten Kategorienamen helfen nur bedingt weiter. Hier kommt eine kurze Erklärung der sechs häufigsten Kategorien mit konkreten Beispielen. Damit du ungefähr weißt, worauf der Scanner eigentlich reagiert.

6.1. Supply Chain (21,4 %)

Der Scanner markiert Installationsanweisungen, die ohne Versionsangabe auskommen. Also Befehle wie pip install requests statt pip install requests==2.31.0. Oder Shell-Pipes wie curl https://example.com/install.sh | bash. Solche Befehle sind in der Open-Source-Welt normal, aber sie haben einen Haken. Wird das Paket oder das Skript später kompromittiert, kompromittiert es auch jeden, der es neu installiert.

6.2. Datenexfiltration (20,1 %)

Hier geht es um Muster, die nach Datenabfluss aussehen können. Zugriffe auf ~/.ssh/, das Lesen von .env-Dateien, hartcodierte IP-Adressen wie http://127.0.0.1:8765 oder verdächtige HTTP-Anfragen an Endpunkte außerhalb der offiziellen Anbieter. Nach dem Nachfilter bleiben vor allem Treffer außerhalb von Markdown-Codeblöcken übrig.

6.3. Rechteausweitung (12,1 %)

Jedes Mal, wenn ein Skript mit sudo arbeitet, wenn es Root-Rechte anfordert oder wenn es Systemkonfigurationen ändert, landet das in dieser Kategorie. Das ist für Systemtools völlig normal. Ein Skill, der Pakete installiert, braucht oft sudo. Ein Skill, der nur PDFs parst, eigentlich nicht. Der Scanner kann den Unterschied nicht erkennen. Du aber schon, wenn du dir den Code anschaust.

6.4. Persistenz (9,7 %)

Persistenz bedeutet, dass sich ein Skill dauerhaft im System einnistet. Klassische Muster sind Cron-Jobs, Änderungen an Shell-Profiles (.bashrc, .zshrc) oder neue Einträge in Autostart-Verzeichnissen. Auch das Schreiben in CLAUDE.md-Dateien fällt in diese Kategorie. Persistenz ist nicht per se böse, aber sie sollte immer transparent sein.

6.5. Destruktive Muster (9,0 %)

Massenlöschungen mit rm -rf, shutil.rmtree oder vergleichbaren Befehlen. Manchmal ist das legitim (ein Cleanup-Skill muss nun mal löschen können). Manchmal ist es ein Unfall, der wartet zu passieren. Und im schlimmsten Fall ist es Absicht.

6.6. Code Execution (8,8 %)

Unsichere Ausführung von fremdem Code. eval(), exec(), unsichere Deserialisierung mit pickle, Reverse Shells, Shell-Pipes mit Nutzereingaben. Der Scanner kennt die typischen Muster und markiert sie. Im Zweifel bedeutet ein Treffer hier, dass du die Finger davon lassen solltest, bis du den Code verstanden hast.

7. Die auffälligsten Skill-Publisher

Wenn man die Treffer pro Publisher aggregiert, entsteht ein interessantes Bild. Ein einziger Publisher (pepe276) ist für 37.978 Treffer verantwortlich. Das sind 20,8 % aller Treffer im gesamten ClawHub. Die folgende Tabelle zeigt die Top 20 der auffälligsten Publisher, sortiert nach Gesamtzahl der Treffer:

Publisher	Treffer gesamt	Kritisch	Hoch	Mittel	Hauptrisiko
`pepe276`	37.978	19	37.948	11	Auffällig
`cooperun`	5.201	4.982	192	27	Kritisch
`yuangu260`	4.582	26	4.550	6	Auffällig
`jimliu`	4.575	6	4.555	14	Auffällig
`ciklopentan`	4.235	2	4.233	0	Auffällig
`keenone`	2.681	3	2.677	1	Auffällig
`horosheff`	2.441	0	2.440	1	Mehrheitlich Hoch
`qiumr`	2.421	6	2.412	3	Auffällig
`snail3d`	2.149	363	1.650	136	Kritisch
`yoborlon-alpha`	2.059	1	2.058	0	Auffällig
`deerleo`	1.687	8	1.675	4	Auffällig
`keeper1978`	1.591	0	1.591	0	Mehrheitlich Hoch
`mirra87654321`	1.319	1	1.318	0	Auffällig
`satoshistackalotto`	1.250	0	1.250	0	Mehrheitlich Hoch
`rsvbitrix`	1.230	1	1.229	0	Auffällig
`h8kxrfp68z-lgtm`	1.161	6	1.154	1	Auffällig
`mixx85`	1.041	25	1.012	4	Auffällig
`chorus12`	1.008	0	1.008	0	Mehrheitlich Hoch
`s7cret`	950	0	938	12	Mehrheitlich Hoch
`offflinerpsy`	941	1	938	2	Auffällig

Die vollständige Liste umfasst 50 Publisher. Hier habe ich aus Platzgründen nur die Top 20 dargestellt. Besonders bemerkenswert sind zwei Muster in den Daten.

Fakt ist:

Der Publisher pepe276 sticht am stärksten heraus. Mit knapp 38.000 Treffern liegt er weit an der Spitze. Fast alle davon sind Hoch-Treffer, was auf sehr viele Verschleierungs- oder Supply-Chain-Muster hindeutet. Eine einzelne Person hinter so einer Zahl ist ungewöhnlich. Entweder hat der Publisher sehr viele Skills veröffentlicht oder einzelne Skills mit besonders umfangreichem Code.

Noch brisanter ist cooperun. Dieser Publisher sticht durch 4.982 kritische Treffer heraus. Das ist deutlich mehr als bei allen anderen und rechtfertigt eine manuelle Prüfung seiner Skills. „Kritisch“ bedeutet, dass der Scanner eindeutige Muster für hochriskante Operationen gefunden hat.

Hinweis

Hohe Trefferzahlen können auch von umfangreicher Dokumentation stammen. Ein Skill mit sehr vielen SKILL.md-Seiten, vielen Beispielen und vielen übersetzten Varianten kann legitim hunderte bis tausende Treffer produzieren, ohne böswillig zu sein. Die Tabelle ist kein Urteil, sondern eine Prioritätsliste für manuelle Reviews.

8. Wie viele Falschpositive wurden entfernt?

Bevor du die Zahlen mit anderen Analysen vergleichst, solltest du wissen, wie stark die Roh-Treffer bereinigt wurden. Der Nachfilter entfernt bekannte Falschpositive aus drei Quellen:

Quelle: eigene Analyse, Static-Scanner mit Nachfilter

CC BY 4.0

gradually.ai

Zusammen wurden 261.451 Instanzen aus der Roh-Analyse entfernt. Das ist mehr als die finale Trefferzahl von 182.258. Ohne den Nachfilter wären die Zahlen also nicht nur unhandlich, sondern auch irreführend.

Homoglyphen in Markdown (160.889 entfernte Treffer) sind das häufigste Falschpositiv. Viele Skills haben Dokumentation auf Chinesisch, Russisch oder Arabisch. Der Scanner erkennt die Zeichen dieser Sprachen als „verdächtig“, weil sie wie verschleierter Code aussehen. In Wirklichkeit ist es einfach eine Übersetzung.

HTTP-Beispiele in Dokumentation (54.034 Treffer) sind das zweite große Falschpositiv. Die Pattern-ID SC-004 beschreibt API-Beispiele in .md-Dateien. Im Quellcode wären sie ein Signal. In der Doku sind sie harmlos.

Code in Markdown-Zäunen (46.528 Treffer) ist der dritte Block. Die meisten SKILL.md-Dateien enthalten Beispiele wie curl -X POST ... oder pip install tensorflow. Der Scanner würde diese Beispiele als Treffer zählen. Der Nachfilter entfernt sie.

Was der Nachfilter nicht leistet:

Er kann echte Risiken in Codeblöcken übersehen. Wenn ein Angreifer bewusst Schadcode in einen Markdown-Block packt, um ihn zu verstecken, filtert der Nachfilter den Treffer raus. Das ist der Preis für weniger Rauschen.

9. Was das für dich bedeutet

Keine Panik. Aber auch kein blindes Vertrauen. Die Zahlen sind ein Weckruf, kein Weltuntergang. Hier sind meine konkreten Empfehlungen, wenn du ClawHub-Skills nutzt:

Prüfe den Publisher. Verifizierte Publisher (die 6,8 %) sind nicht automatisch sicher, aber sie haben zumindest eine Identitätsprüfung durchlaufen. Ist der Publisher unbekannt und hat wenig Reputation, installiere den Skill nicht blind.
Lies die SKILL.md. Wenn du einen Skill wirklich brauchst, öffne die SKILL.md und die Skripte, die dort referenziert werden. Schau nach sudo-Befehlen, curl-Installationen, Zugriffen auf .ssh oder .env. Wenn du Code nicht verstehst, frag einen Kollegen oder lass ihn durch Claude oder ChatGPT erklären.
Nutze eine Sandbox. OpenClaw unterstützt eingeschränkte Berechtigungen. Gib einem Skill nur die Rechte, die er wirklich braucht. Keine Root-Rechte für einen PDF-Parser. Kein Netzwerkzugriff für einen Datei-Renamer.
Halte OpenClaw aktuell. Neue Versionen enthalten oft Sicherheits-Fixes. CVE-2026-25253 (Codeausführung per Mausklick) wurde zum Beispiel innerhalb von 48 Stunden gepatcht. Wer die Updates auslässt, bleibt verwundbar.
Vermeide sensible Daten. Nutze ClawHub-Skills nicht mit Zugangsdaten zu Produktivsystemen, API-Keys für Zahlungsdienstleister oder persönlichen Gesundheitsdaten. Solange der Marketplace keinen verpflichtenden Security-Review hat, ist jeder Skill ein potenzielles Risiko.

Wenn dir Sicherheit wichtiger ist als Feature-Vielfalt, schau dir die sicheren OpenClaw-Alternativen an. Projekte wie OpenFang und IronClaw sind von Anfang an auf Security-First ausgelegt. Die Auswahl an Skills ist dort deutlich kleiner, aber die Qualitätskontrolle ist strenger.

Die OpenClaw Foundation arbeitet an einem verbindlichen Security-Review-Prozess für den ClawHub. Bis dahin bleibt die Verantwortung bei den Nutzern. Augen auf beim Skill-Einkauf.

Häufig gestellte Fragen

Das hat mich neugierig gemacht:

Wichtiger Hinweis vorab:

Wer Skills blind installiert, geht ein Risiko ein. Und das Risiko ist höher, als viele denken.

TL;DRDas Wichtigste in Kürze

16.797 ClawHub-Skills gescannt, 48,4 % mit mindestens einem Sicherheitsbefund
182.258 Trefferinstanzen insgesamt: 14,7 % kritisch, 76,6 % hoch, 8,7 % mittel
Supply-Chain-Risiken (21,4 %) und Datenexfiltration (20,1 %) sind am weitesten verbreitet

1. Was ist der ClawHub?

Die Installation ist denkbar einfach. Ein einziger Befehl im Terminal, und der Skill ist einsatzbereit. Genau das macht den ClawHub so attraktiv. Und gleichzeitig so riskant.

Ein paar Zahlen zur Einordnung:

Über 44.000 Skills insgesamt im Marketplace
12.400 aktive Skill-Entwickler
Nur 6,8 % der Entwickler sind verifiziert
Über 2,3 Millionen Skill-Installationen bisher
Durchschnittlich 127 Downloads pro Skill

Das Problem daran:

2. Die Methodik hinter der Analyse

Am Ende hatte ich 16.797 Skills aus dem GitHub-Mirror, die sich erfolgreich scannen ließen.

Eine Einschränkung gibt es allerdings.

Die Kategorien sind:

Supply Chain: unpinned pip/npm-Installationen, curl-to-bash, Package-Tampering
Datenexfiltration: SSH-Key-Zugriffe, hartcodierte Endpunkte, Browser-Daten-Zugriffe
Rechteausweitung: sudo, Capability-Missbrauch, Root-Ausführung
Persistenz: Cron-Jobs, Profile-Änderungen, CLAUDE.md-Writes
Destruktive Muster: rm -rf, shutil.rmtree, Massenlöschungen
Code Execution: eval, Shell-Pipes, Reverse Shells, unsichere Deserialisierung
Hardcoded Secrets: eingebettete API-Keys, Passwörter, Tokens
Prompt Injection: Versuche, Rollen oder Safety-Anweisungen zu überschreiben
Verschleierung: Homoglyphen, Unicode-Tricks, ungewöhnliche Encodings
SSRF, Sandbox Escape, Verdächtige Dateien, Ressourcen-Erschöpfung als weitere Kategorien

Hinweis

3. Die Ergebnisse im Überblick

Die wichtigste Zahl aus der Analyse zeigt, wie die 16.797 gescannten Skills sich auf „mit Befund“ und „ohne Befund“ verteilen:

Ohne Befund: 8.668 Skills

Mit Sicherheitsbefund: 8.129 Skills

Quelle: eigene Analyse, Static-Scanner mit Nachfilter

CC BY 4.0

gradually.ai

Von 16.797 gescannten Skills haben 8.129 mindestens einen verbleibenden Sicherheitsbefund. Das entspricht 48,4 %. Fast jeder zweite Skill im ClawHub zeigt also mindestens ein technisches Warnsignal.

Die restlichen 51,6 % der Skills haben nach dem Nachfilter keine Treffer mehr.

Allerdings:

4. Verteilung der Schweregrade

Die Verteilung nach Schweregrad zeigt, wie kritisch die Treffer insgesamt sind:

Quelle: eigene Analyse, Static-Scanner mit Nachfilter

CC BY 4.0

gradually.ai

5. Die Bedrohungskategorien

Jetzt wird es interessant. Die Scanner-Treffer lassen sich in 13 Kategorien aufteilen. Dabei gibt es zwei völlig verschiedene Blickwinkel, die beide wichtig sind.