Stell dir vor, du sprichst einen Satz auf Deutsch ein. Und plötzlich liest dir deine eigene Stimme einen kompletten Podcast vor. Oder ein Hörbuch. Oder spricht fließend Spanisch, obwohl du nie eine Vokabel gelernt hast.
Genau das ist Voice Cloning.
Die Technik dahinter klang vor zwei Jahren noch nach Science-Fiction. Heute brauchst du dafür nur ein paar Minuten Audio und ein gutes Tool. Ich habe meine eigene Stimme inzwischen mehrfach geklont und nutze sie für Content, für den ich sonst stundenlang im Aufnahmestudio sitzen müsste.
Allerdings gibt es zwei Dinge, die viele unterschätzen: Erstens entscheidet die Aufnahme über alles. Eine schlechte Aufnahme bedeutet einen schlechten Klon, egal wie gut das Tool ist. Zweitens ist das Klonen von Stimmen rechtlich heikler, als die meisten denken.
In dieser Anleitung zeige ich dir Schritt für Schritt, wie du deine Stimme klonst. Du lernst, welche Art von Klon du brauchst, worauf du bei der Aufnahme achten musst und was rechtlich erlaubt ist und was nicht.
Los geht's!
- Voice Cloning erstellt einen digitalen Abdruck deiner Stimme aus einer Audioaufnahme. Du sprichst einmal ein, danach kann die KI in deiner Stimme beliebige Texte vorlesen.
- Es gibt zwei Varianten: Instant Voice Clone (1 bis 2 Min Audio, ab 6 $) für schnelle Tests und Professional Voice Clone (30+ Min, optimal 3 Std, ab 22 $) für professionelle Qualität.
- Rechtlich gilt: Deine eigene Stimme darfst du frei klonen. Für fremde Stimmen brauchst du immer eine dokumentierte Einwilligung. Ab dem 2.8.2026 greift zudem die Transparenzpflicht des EU AI Act.
1. Was ist Voice Cloning?
Voice Cloning bedeutet, dass eine KI aus einer Audioaufnahme deiner Stimme einen digitalen Abdruck erstellt. Diesen Abdruck kannst du danach mit beliebigem Text füttern. Die KI liest dir den Text dann in deiner Stimme vor, mit deiner Klangfarbe, deinem Tonfall und deiner Sprechweise.
Der Unterschied zu klassischem Text-to-Speech ist also: Du nutzt nicht irgendeine vorgefertigte Computerstimme, sondern deine eigene.
Bei der Erstellung eines Klons hast du grundsätzlich zwei Wege zur Auswahl. Den schnellen und den gründlichen. Beide haben ihre Berechtigung.
1.1 Instant Voice Clone (IVC)
Der Instant Voice Clone ist der schnelle Weg. Du lädst zwischen 1 und 2 Minuten Audio hoch, und nach wenigen Augenblicken hast du einen Klon, mit dem du sofort arbeiten kannst.
Das Ergebnis ist erstaunlich gut für so wenig Aufwand. Bei ElevenLabs ist der IVC ab dem Starter-Tarif für 6 $ im Monat verfügbar.
Der IVC eignet sich gut, wenn du Voice Cloning erst einmal ausprobieren willst, kurze Clips brauchst oder den Klon nur für interne Zwecke nutzt. Für höchste Ansprüche reicht er aber nicht ganz.
1.2 Professional Voice Clone (PVC)
Der Professional Voice Clone ist der gründliche Weg. Hier lädst du deutlich mehr Audio hoch, mindestens 30 Minuten, optimal sind rund 3 Stunden. Aus diesem Material trainiert ElevenLabs ein dediziertes Modell deiner Stimme.
Das dauert ein bisschen, aber das Ergebnis ist es wert. Der PVC klingt deutlich näher am Original, weil er nicht nur deine Klangfarbe lernt, sondern auch deine Betonung, deinen Rhythmus und deine kleinen Eigenheiten beim Sprechen.
Bei ElevenLabs ist der PVC ab dem Creator-Tarif für 22 $ im Monat dabei (im ersten Monat 11 $). Wenn du deine Stimme professionell einsetzen willst, etwa für Hörbücher oder einen Podcast, führt für mich kaum ein Weg daran vorbei.
2. Ist Stimmen-Klonen überhaupt erlaubt? (Recht in DE und der EU)
Bevor wir zur Praxis kommen, müssen wir kurz über das Recht sprechen. Nicht, weil es kompliziert ist, sondern weil viele hier leichtfertig sind. Und das kann teuer werden.
Die wichtigste Regel ist eigentlich ganz einfach.
Du darfst deine eigene Stimme klonen. Immer. Es ist deine Stimme, du entscheidest, was damit passiert. Hier gibt es keine Stolperfallen.
Sobald du aber die Stimme einer anderen Person klonst, sieht die Sache anders aus. Die Stimme eines Menschen gehört zu seinen persönlichen Merkmalen, ähnlich wie sein Gesicht. In Deutschland und der EU brauchst du deshalb die Einwilligung der betroffenen Person, bevor du ihre Stimme verarbeitest. Das ergibt sich unter anderem aus der DSGVO, weil eine Stimme ein personenbezogenes Datum ist.
Und das gilt nicht nur für Prominente.
Es gilt genauso für deine Kollegin, deinen besten Freund oder ein Familienmitglied. Hol dir die Einwilligung am besten schriftlich und dokumentiere sie. Falls es später Streit gibt, willst du belegen können, dass die Person zugestimmt hat.
2.1 Die Transparenzpflicht ab dem 2. August 2026
Dazu kommt eine neue Regel, die du auf dem Schirm haben solltest. Der EU AI Act sieht in Artikel 50 eine Transparenzpflicht für KI-generierte Inhalte vor. Die entsprechenden Regeln werden ab dem 2. August 2026 wirksam.
Kurz gesagt bedeutet das: KI-generierte Audioinhalte sollen als solche erkennbar sein. Wenn du also eine geklonte Stimme veröffentlichst, solltest du dich frühzeitig damit beschäftigen, wie du diese Inhalte kennzeichnest.
Unabhängig vom Gesetz halte ich Transparenz ohnehin für den besseren Weg. Deine Hörer merken es früher oder später, und ehrlich zu sein, schafft Vertrauen. Das passt auch zu unserem Prinzip hier: KI als Werkzeug einsetzen, aber den Menschen im Mittelpunkt behalten.
3. Schritt-für-Schritt: Deine Stimme mit ElevenLabs klonen

Jetzt wird es praktisch. Ich nutze für das Klonen ElevenLabs, weil es für mich aktuell die natürlichste Sprachqualität liefert und beide Klon-Varianten unter einem Dach anbietet. Eine Übersicht weiterer Anbieter findest du in meinem Artikel zu den besten KI-Sprachgeneratoren.
Die folgenden fünf Schritte führen dich vom leeren Mikrofon bis zur fertigen, einsatzbereiten Stimme.
3.1 Schritt 1: Die Aufnahme vorbereiten
Dieser Schritt entscheidet über alles. Ich kann es nicht oft genug sagen: Die Qualität deiner Aufnahme bestimmt die Qualität deines Klons. Ein teures Tool rettet keine schlechte Aufnahme.
Achte deshalb auf drei Dinge.
Zuerst der Raum. Such dir einen ruhigen, möglichst schallgedämpften Ort ohne Hall. Ein Raum mit Teppich, Vorhängen und Möbeln klingt besser als ein leeres, gekacheltes Badezimmer. Notfalls funktioniert auch ein Kleiderschrank voller Klamotten erstaunlich gut, weil die Stoffe den Schall schlucken.
Dann das Mikrofon. Ein anständiges USB-Mikrofon reicht völlig. Es muss kein Profi-Equipment sein. Halte einen gleichmäßigen Abstand zum Mikro und vermeide Pop-Geräusche bei harten Konsonanten wie P und B.
Und schließlich das Material. Sprich natürlich und in deinem normalen Tempo. Lies am besten einen abwechslungsreichen Text, der verschiedene Satzarten enthält: Aussagen, Fragen, kurze und lange Sätze. So lernt die KI deine ganze Bandbreite kennen und nicht nur deinen Vorlese-Modus.
3.2 Schritt 2: Audio bei ElevenLabs hochladen
Wenn deine Aufnahme steht, loggst du dich bei ElevenLabs ein und gehst im Menü zum Bereich „Voices“. Dort findest du die Option, eine neue Stimme hinzuzufügen.
Anschließend lädst du deine Audiodateien hoch. ElevenLabs akzeptiert gängige Formate wie MP3 und WAV. Achte darauf, dass du nur Aufnahmen hochlädst, in denen wirklich nur deine Stimme zu hören ist. Hintergrundmusik, andere Sprecher oder Störgeräusche verwirren das Modell und verschlechtern das Ergebnis.
Gib deiner Stimme einen aussagekräftigen Namen, damit du sie später leicht wiederfindest. Gerade wenn du mehrere Klone anlegst, hilft das enorm.
3.3 Schritt 3: IVC oder PVC wählen
Jetzt entscheidest du dich für eine der beiden Varianten aus Kapitel 1. Diese Entscheidung hast du im besten Fall schon vor der Aufnahme getroffen, weil sie bestimmt, wie viel Material du brauchst.
- Wähle den Instant Voice Clone, wenn du nur wenig Audio hast, schnell starten willst oder Voice Cloning erst einmal testest. Der Klon ist sofort einsatzbereit.
- Wähle den Professional Voice Clone, wenn du ausreichend Audio hast und die bestmögliche Qualität brauchst. Hier folgt nach dem Upload eine Trainingsphase, in der ElevenLabs dein persönliches Stimmenmodell erstellt.
Beim PVC heißt es danach kurz Geduld haben. Das Training dauert eine Weile. Zeit genug, um dir eine Pause zu gönnen und dir einen Kaffee (oder Tee) zu holen.
3.4 Schritt 4: Voice Verification
Beim Professional Voice Clone verlangt ElevenLabs eine sogenannte Voice Verification. Das ist eine wichtige Schutzmaßnahme, und ich finde es gut, dass es sie gibt.
Bei der Verifizierung musst du nachweisen, dass die Stimme, die du klonen willst, auch wirklich deine eigene ist. Dafür liest du in der Regel einen vorgegebenen Satz live ein. ElevenLabs gleicht diese Aufnahme mit deinem hochgeladenen Material ab.
Dieser Schritt sorgt dafür, dass nicht einfach jeder die Stimme einer fremden Person hochladen und klonen kann. Er hängt also direkt mit dem zusammen, worüber wir in Kapitel 2 gesprochen haben. Halte dich an die Regeln, dann ist die Verifizierung in zwei Minuten erledigt.
3.5 Schritt 5: Testen und optimieren
Geschafft! Deine Stimme ist geklont. Jetzt kommt der spannende Teil: Du fütterst sie mit Text und hörst dir zum ersten Mal an, wie sich dein digitaler Zwilling anhört.
Gib einen Testtext ein und lass ihn vorlesen. Beim ersten Hören stutzt du wahrscheinlich kurz, weil es wirklich nach dir klingt. Danach geht es ans Feintuning, denn das erste Ergebnis ist selten schon perfekt.
Zwei Stellschrauben helfen dir dabei.
Zum einen die Voice Settings. In den Einstellungen kannst du unter anderem die Stabilität und die Ähnlichkeit anpassen. Eine höhere Stabilität klingt gleichmäßiger, aber manchmal etwas monoton. Eine niedrigere Stabilität klingt lebendiger, kann aber auch mal ausreißen. Spiel mit den Reglern, bis es für deinen Zweck passt.
Zum anderen die Audio Tags. Das aktuelle Modell Eleven v3 unterstützt Tags, mit denen du Emotion und Betonung direkt im Text steuerst. Du schreibst sie einfach in eckigen Klammern an die passende Stelle:
[whispers] Das hier flüstere ich dir nur leise zu.
[laughs] Und darüber muss ich kurz lachen.
[excited] Das ist wirklich aufregend!Solche Tags machen aus einem monotonen Vorlesen einen lebendigen Vortrag. Genau das hebt ElevenLabs für mich von vielen anderen Tools ab, denn diese Inline-Steuerung bietet kaum ein anderer Anbieter.
4. Wofür lohnt sich eine geklonte Stimme?
Vielleicht fragst du dich jetzt, wofür der ganze Aufwand eigentlich gut ist. Aus meiner eigenen Arbeit kann ich dir drei Anwendungen nennen, bei denen eine geklonte Stimme richtig viel Zeit spart.
Der erste Fall sind Podcasts. Du kannst Skripte oder Korrekturen einsprechen lassen, ohne jedes Mal das Mikrofon aufbauen und den Raum vorbereiten zu müssen. Gerade kleine Nachbesserungen, bei denen du sonst eine ganze Aufnahmesession ansetzen würdest, gehen so in Minuten.
Der zweite Fall sind Hörbücher. Ein komplettes Buch selbst einzusprechen, kostet dich Tage im Studio. Mit deiner geklonten Stimme liest die KI das Manuskript vor, und du konzentrierst dich auf das Lektorat und die Feinabstimmung.
Der dritte Fall, und für mich der spannendste, ist mehrsprachiger Content. Du nimmst deine Stimme einmal auf Deutsch auf und kannst sie danach Englisch, Spanisch oder eine andere Sprache sprechen lassen, ohne dass du diese Sprache selbst beherrschst. Für jeden, der international Reichweite aufbauen will, ist das ein echter Hebel. Eleven v3 deckt dafür über 70 Sprachen ab.
Wenn du wissen willst, was ElevenLabs konkret kostet und welcher Tarif zu deinem Vorhaben passt, schau in meinen Artikel zu den ElevenLabs-Preisen.
5. Fazit: So gelingt dein erster Stimmen-Klon
Voice Cloning ist 2026 keine Raketenwissenschaft mehr. Mit ein paar Minuten Audio und dem richtigen Tool bekommst du einen digitalen Abdruck deiner Stimme, der erstaunlich nah ans Original kommt.
Zwei Dinge solltest du dir merken.
Erstens entscheidet die Aufnahme. Investier die meiste Sorgfalt in einen ruhigen Raum, ein gutes Mikrofon und genug abwechslungsreiches Material. Für ein schnelles Ausprobieren reicht der Instant Voice Clone, für professionelle Ergebnisse nimmst du den Professional Voice Clone.
Zweitens gilt: Klone nur deine eigene Stimme oder Stimmen, für die du eine dokumentierte Einwilligung hast. Und behalte die Transparenzpflicht des EU AI Act ab dem 2. August 2026 im Blick.
Wenn du loslegen willst, ist ElevenLabs für mich der beste Startpunkt. Der Creator-Tarif schaltet den Professional Voice Clone frei, mit dem du die natürlichsten Ergebnisse erzielst. Probier es einfach aus und hör dir an, wie sich dein digitaler Zwilling anfühlt.






