Welche Audioqualität und Länge brauche ich, um meine Stimme zu klonen?

Das hängt davon ab, welche Art von Klon du erstellst: Für einen Instant Voice Clone reichen rund 10 Sekunden saubere Aufnahme, der fertige Klon steht dann in etwa 2 Minuten. Damit kommst du schon erstaunlich weit. Für einen Professional Voice Clone solltest du mindestens 30 Minuten hochwertiges Audio liefern. Optimal sind rund 3 Stunden, weil das Modell dann auch deine Betonung und deine Sprechpausen lernt. Wichtiger als die reine Länge ist die Qualität: ein ruhiger Raum ohne Hall, ein anständiges Mikrofon und keine Nebengeräusche. Eine verrauschte Stunde bringt weniger als fünf saubere Minuten.

Welche Sprachen unterstützt das Voice Cloning?

Bei ElevenLabs deckt das aktuelle Modell Eleven v3 über 70 Sprachen ab, darunter natürlich auch Deutsch. Das Besondere am Klonen: Du nimmst deine Stimme einmal auf Deutsch auf und kannst sie danach in anderen Sprachen sprechen lassen, ohne dass du diese Sprachen selbst beherrschst. Für mehrsprachigen Content ist das Gold wert. Achte aber darauf, die Ergebnisse vor der Veröffentlichung anzuhören, weil die Aussprache bei selteneren Sprachen noch nicht perfekt ist.

Darf ich eine geklonte Stimme kommerziell nutzen?

Ja, sofern es deine eigene Stimme ist oder du die dokumentierte Einwilligung der betroffenen Person hast. Die kommerzielle Lizenz ist bei ElevenLabs in den Bezahl-Tarifen enthalten, du kannst die Ausgabe also für YouTube, Podcasts, Hörbücher oder Werbung verwenden. Lies trotzdem immer die aktuellen Lizenzbedingungen deines Anbieters, weil sich Details ändern können. Und denk daran: Eine technische Lizenz ersetzt nicht die rechtliche Erlaubnis, eine fremde Stimme zu verwenden.

Ist es legal, meine eigene Stimme zu klonen?

Deine eigene Stimme zu klonen ist unproblematisch. Es ist deine Stimme, du entscheidest, was damit passiert. Sobald du aber die Stimme einer anderen Person klonst, brauchst du deren ausdrückliche und am besten schriftliche Einwilligung. Das gilt auch für Kolleginnen, Freunde oder Familienmitglieder. Stimmen von Prominenten oder fremden Menschen ohne Zustimmung zu klonen, ist tabu. Ich bin allerdings kein Jurist, sieh das hier also als Orientierung und nicht als Rechtsberatung.

Was ist der Unterschied zwischen Instant und Professional Voice Clone?

Beide erzeugen einen digitalen Abdruck deiner Stimme, aber mit unterschiedlichem Aufwand und Ergebnis: Der Instant Voice Clone (IVC) ist in rund 2 Minuten fertig. Er braucht nur etwa 10 Sekunden Audio und ist ab dem Starter-Tarif (6 $) verfügbar. Gut für schnelle Tests und einfache Anwendungen. Der Professional Voice Clone (PVC) wird auf mindestens 30 Minuten, idealerweise 3 Stunden Audio trainiert und klingt deutlich näher am Original. Er ist ab dem Creator-Tarif (22 $) dabei und braucht eine kurze Trainingszeit. Faustregel: Für ein schnelles Ausprobieren reicht der IVC. Für Hörbücher, Podcasts oder alles, was professionell klingen soll, lohnt sich der PVC.

KI-Stimme klonen: Anleitung in 5 Schritten (mit ElevenLabs)

Q: Muss ich kennzeichnen, dass eine Stimme KI-generiert ist?

Voraussichtlich ja. Der EU AI Act sieht in Artikel 50 eine Transparenzpflicht für KI-generierte Inhalte vor, deren Regeln ab dem 2. August 2026 greifen. Wenn du also eine geklonte Stimme veröffentlichst, solltest du dich frühzeitig damit beschäftigen, wie du KI-Audio kennzeichnest. Unabhängig vom Gesetz finde ich Transparenz ohnehin den besseren Weg. Deine Hörer merken es früher oder später, und Ehrlichkeit zahlt sich aus.

Stell dir vor, du sprichst einen Satz auf Deutsch ein. Und plötzlich liest dir deine eigene Stimme einen kompletten Podcast vor. Oder ein Hörbuch. Oder spricht fließend Spanisch, obwohl du nie eine Vokabel gelernt hast.

Genau das ist Voice Cloning.

Die Technik dahinter klang vor zwei Jahren noch nach Science-Fiction. Heute brauchst du dafür nur ein paar Minuten Audio und ein gutes Tool. Ich habe meine eigene Stimme inzwischen mehrfach geklont und nutze sie für Content, für den ich sonst stundenlang im Aufnahmestudio sitzen müsste.

Allerdings gibt es zwei Dinge, die viele unterschätzen: Erstens entscheidet die Aufnahme über alles. Eine schlechte Aufnahme bedeutet einen schlechten Klon, egal wie gut das Tool ist. Zweitens ist das Klonen von Stimmen rechtlich heikler, als die meisten denken.

In dieser Anleitung zeige ich dir Schritt für Schritt, wie du deine Stimme klonst. Du lernst, welche Art von Klon du brauchst, worauf du bei der Aufnahme achten musst und was rechtlich erlaubt ist und was nicht.

Los geht’s!

TL;DRDas Wichtigste in Kürze

Voice Cloning erstellt einen digitalen Abdruck deiner Stimme aus einer Audioaufnahme. Du sprichst einmal ein, danach kann die KI in deiner Stimme beliebige Texte vorlesen.
Es gibt zwei Varianten: Instant Voice Clone (rund 10 Sek. Audio, ab 6 $) für schnelle Tests und Professional Voice Clone (30+ Min, optimal 3 Std, ab 22 $) für professionelle Qualität.
Rechtlich gilt: Deine eigene Stimme darfst du frei klonen. Für fremde Stimmen brauchst du immer eine dokumentierte Einwilligung. Ab dem 2.8.2026 greift zudem die Transparenzpflicht des EU AI Act.

1. Was ist Voice Cloning?

Voice Cloning bedeutet, dass eine KI aus einer Audioaufnahme deiner Stimme einen digitalen Abdruck erstellt. Diesen Abdruck kannst du danach mit beliebigem Text füttern. Die KI liest dir den Text dann in deiner Stimme vor, mit deiner Klangfarbe, deinem Tonfall und deiner Sprechweise.

Der Unterschied zu klassischem Text-to-Speech ist also: Du nutzt nicht irgendeine vorgefertigte Computerstimme, sondern deine eigene.

Bei der Erstellung eines Klons hast du grundsätzlich zwei Wege zur Auswahl. Den schnellen und den gründlichen. Beide haben ihre Berechtigung.

1.1 Instant Voice Clone (IVC)

Der Instant Voice Clone ist der schnelle Weg. Du lädst nur etwa 10 Sekunden Audio hoch, und nach rund 2 Minuten hast du einen fertigen Klon, mit dem du sofort arbeiten kannst.

Das Ergebnis ist erstaunlich gut für so wenig Aufwand. Bei ElevenLabs ist der IVC ab dem Starter-Tarif für 6 $ im Monat verfügbar.

Der IVC eignet sich gut, wenn du Voice Cloning erst einmal ausprobieren willst, kurze Clips brauchst oder den Klon nur für interne Zwecke nutzt. Für höchste Ansprüche reicht er aber nicht ganz.

1.2 Professional Voice Clone (PVC)

Der Professional Voice Clone ist der gründliche Weg. Hier lädst du deutlich mehr Audio hoch, mindestens 30 Minuten, optimal sind rund 3 Stunden. Aus diesem Material trainiert ElevenLabs ein dediziertes Modell deiner Stimme.

Das dauert ein bisschen, aber das Ergebnis ist es wert. Der PVC klingt deutlich näher am Original, weil er nicht nur deine Klangfarbe lernt, sondern auch deine Betonung, deinen Rhythmus und deine kleinen Eigenheiten beim Sprechen.

Bei ElevenLabs ist der PVC ab dem Creator-Tarif für 22 $ im Monat dabei (im ersten Monat 11 $). Wenn du deine Stimme professionell einsetzen willst, etwa für Hörbücher oder einen Podcast, führt für mich kaum ein Weg daran vorbei.

Hinweis

Faustregel: Nimm den IVC zum Ausprobieren und für schnelle, einfache Aufgaben. Sobald deine geklonte Stimme professionell klingen soll und regelmäßig im Einsatz ist, lohnt sich der Aufwand für den PVC.

2. Ist Stimmen-Klonen überhaupt erlaubt? (Recht in DE und der EU)

Bevor wir zur Praxis kommen, müssen wir kurz über das Recht sprechen. Nicht, weil es kompliziert ist, sondern weil viele hier leichtfertig sind. Und das kann teuer werden.

Warnung

Dieser Abschnitt ist eine Orientierung, keine Rechtsberatung. Ich bin kein Jurist und kann für Vollständigkeit, Aktualität und Richtigkeit keine Haftung übernehmen. Bei konkreten Fragen sprich bitte mit einem Anwalt oder Datenschutzexperten.

Die wichtigste Regel ist eigentlich ganz einfach.

Du darfst deine eigene Stimme klonen. Immer. Es ist deine Stimme, du entscheidest, was damit passiert. Hier gibt es keine Stolperfallen.

Sobald du aber die Stimme einer anderen Person klonst, sieht die Sache anders aus. Die Stimme eines Menschen gehört zu seinen persönlichen Merkmalen, ähnlich wie sein Gesicht. In Deutschland und der EU brauchst du deshalb die Einwilligung der betroffenen Person, bevor du ihre Stimme verarbeitest. Das ergibt sich unter anderem aus der DSGVO, weil eine Stimme ein personenbezogenes Datum ist.

Und das gilt nicht nur für Prominente.

Es gilt genauso für deine Kollegin, deinen besten Freund oder ein Familienmitglied. Hol dir die Einwilligung am besten schriftlich und dokumentiere sie. Falls es später Streit gibt, willst du belegen können, dass die Person zugestimmt hat.

2.1 Die Transparenzpflicht ab dem 2. August 2026

Dazu kommt eine neue Regel, die du auf dem Schirm haben solltest. Der EU AI Act sieht in Artikel 50 eine Transparenzpflicht für KI-generierte Inhalte vor. Die entsprechenden Regeln werden ab dem 2. August 2026 wirksam.

Kurz gesagt bedeutet das: KI-generierte Audioinhalte sollen als solche erkennbar sein. Wenn du also eine geklonte Stimme veröffentlichst, solltest du dich frühzeitig damit beschäftigen, wie du diese Inhalte kennzeichnest.

Unabhängig vom Gesetz halte ich Transparenz ohnehin für den besseren Weg. Deine Hörer merken es früher oder später, und ehrlich zu sein, schafft Vertrauen. Das passt auch zu unserem Prinzip hier: KI als Werkzeug einsetzen, aber den Menschen im Mittelpunkt behalten.

Hinweis

Klone niemals die Stimme einer dritten Person ohne deren ausdrückliche Zustimmung. Auch dann nicht, wenn das Tool es technisch zulässt. Eine technische Möglichkeit ist keine rechtliche Erlaubnis.

3. Schritt-für-Schritt: Deine Stimme mit ElevenLabs klonen

Die Stimmen-Verwaltung von ElevenLabs mit eigenen Stimmen und der Option, eine neue Stimme zu erstellen

Jetzt wird es praktisch. Ich nutze für das Klonen ElevenLabs, weil es für mich aktuell die natürlichste Sprachqualität liefert und beide Klon-Varianten unter einem Dach anbietet. Eine Übersicht weiterer Anbieter findest du in meinem Artikel zu den besten KI-Sprachgeneratoren.

Die folgenden fünf Schritte führen dich vom leeren Mikrofon bis zur fertigen, einsatzbereiten Stimme.

3.1 Schritt 1: Die Aufnahme vorbereiten

Dieser Schritt entscheidet über alles. Ich kann es nicht oft genug sagen: Die Qualität deiner Aufnahme bestimmt die Qualität deines Klons. Ein teures Tool rettet keine schlechte Aufnahme.

Achte deshalb auf drei Dinge.

Zuerst der Raum. Such dir einen ruhigen, möglichst schallgedämpften Ort ohne Hall. Ein Raum mit Teppich, Vorhängen und Möbeln klingt besser als ein leeres, gekacheltes Badezimmer. Notfalls funktioniert auch ein Kleiderschrank voller Klamotten erstaunlich gut, weil die Stoffe den Schall schlucken.

Dann das Mikrofon. Ein anständiges USB-Mikrofon reicht völlig. Es muss kein Profi-Equipment sein. Halte einen gleichmäßigen Abstand zum Mikro und vermeide Pop-Geräusche bei harten Konsonanten wie P und B.

Und schließlich das Material. Sprich natürlich und in deinem normalen Tempo. Lies am besten einen abwechslungsreichen Text, der verschiedene Satzarten enthält: Aussagen, Fragen, kurze und lange Sätze. So lernt die KI deine ganze Bandbreite kennen und nicht nur deinen Vorlese-Modus.

Tipp

Für den IVC reichen rund 10 saubere Sekunden. Für den PVC plane lieber 30 Minuten bis 3 Stunden ein. Mach ruhig mehrere Aufnahmen und such dir die besten Passagen heraus. Lieber etwas mehr Zeit investieren, als später einen mittelmäßigen Klon zu haben.

3.2 Schritt 2: Audio bei ElevenLabs hochladen

Wenn deine Aufnahme steht, loggst du dich bei ElevenLabs ein und gehst im Menü zum Bereich „Stimmen“. Dort klickst du auf „Stimme erstellen“ und landest bei vier Methoden, nämlich Stimmendesign, Sofortige Stimmklonung, Professioneller Stimmklon und Stimmen-Remixing.

Der Stimme-erstellen-Dialog von ElevenLabs mit den vier Methoden Stimmendesign, Sofortige Stimmklonung, Professioneller Stimmklon und Stimmen-Remixing, Screenshot aus meinem eigenen Creator-Konto

Ich habe mir diesen Dialog in meinem eigenen Creator-Konto angesehen. Oben rechts zeigt ElevenLabs, wie viele der insgesamt 30 Stimmen-Slots schon belegt sind, bei mir aktuell null von 30.

Gut zu wissen, bevor du loslegst. Im kostenlosen Free-Tarif gibt es gar kein Voice Cloning, weder Instant noch Professional. Die Sofortige Stimmklonung ist ab dem Starter-Tarif für 6 $ dabei, der Professionelle Stimmklon erst ab dem Creator-Tarif für 22 $.

Anschließend lädst du deine Audiodateien hoch. ElevenLabs akzeptiert gängige Formate wie MP3 und WAV. Achte darauf, dass du nur Aufnahmen hochlädst, in denen wirklich nur deine Stimme zu hören ist. Hintergrundmusik, andere Sprecher oder Störgeräusche verwirren das Modell und verschlechtern das Ergebnis.

Gib deiner Stimme einen aussagekräftigen Namen, damit du sie später leicht wiederfindest. Gerade wenn du mehrere Klone anlegst, hilft das enorm.

3.3 Schritt 3: IVC oder PVC wählen

Jetzt entscheidest du dich für eine der beiden Varianten aus Kapitel 1. Diese Entscheidung hast du im besten Fall schon vor der Aufnahme getroffen, weil sie bestimmt, wie viel Material du brauchst.

Wähle den Instant Voice Clone, wenn du nur wenig Audio hast, schnell starten willst oder Voice Cloning erst einmal testest. Der Klon ist sofort einsatzbereit.
Wähle den Professional Voice Clone, wenn du ausreichend Audio hast und die bestmögliche Qualität brauchst. Hier folgt nach dem Upload eine Trainingsphase, in der ElevenLabs dein persönliches Stimmenmodell erstellt.

Entscheidest du dich für die Sofortige Stimmklonung, landest du direkt bei diesem Upload-Screen, den ich aus meinem eigenen Konto zeige.

Der Upload-Schritt der Sofortigen Stimmklonung bei ElevenLabs mit dem Hinweis „10 Sekunden Audio erforderlich“ sowie Tipps zu lauten Umgebungen und Mikrofonqualität

ElevenLabs verlangt hier tatsächlich nur rund 10 Sekunden sauberes Audio, nicht die 1 bis 2 Minuten, die in älteren Anleitungen oft kursieren. Hochladen kannst du Audio- oder Videodateien bis 10 MB, alternativ nimmst du direkt im Browser auf.

Beim PVC heißt es danach kurz Geduld haben. Das Training dauert eine Weile. Zeit genug, um dir eine Pause zu gönnen und dir einen Kaffee (oder Tee) zu holen.

3.4 Schritt 4: Voice Verification

Beim Professional Voice Clone verlangt ElevenLabs eine sogenannte Voice Verification. Das ist eine wichtige Schutzmaßnahme, und ich finde es gut, dass es sie gibt.

Bei der Verifizierung musst du nachweisen, dass die Stimme, die du klonen willst, auch wirklich deine eigene ist. Dafür liest du in der Regel einen vorgegebenen Satz live ein. ElevenLabs gleicht diese Aufnahme mit deinem hochgeladenen Material ab.

Dieser Schritt sorgt dafür, dass nicht einfach jeder die Stimme einer fremden Person hochladen und klonen kann. Er hängt also direkt mit dem zusammen, worüber wir in Kapitel 2 gesprochen haben. Halte dich an die Regeln, dann ist die Verifizierung in zwei Minuten erledigt.

3.5 Schritt 5: Testen und optimieren

Geschafft! Deine Stimme ist geklont. Jetzt kommt der spannende Teil: Du fütterst sie mit Text und hörst dir zum ersten Mal an, wie sich dein digitaler Zwilling anhört.

Gib einen Testtext ein und lass ihn vorlesen. Beim ersten Hören stutzt du wahrscheinlich kurz, weil es wirklich nach dir klingt. Danach geht es ans Feintuning, denn das erste Ergebnis ist selten schon perfekt.

Zwei Stellschrauben helfen dir dabei.

Zum einen die Voice Settings. In den Einstellungen kannst du unter anderem die Stabilität und die Ähnlichkeit anpassen. Eine höhere Stabilität klingt gleichmäßiger, aber manchmal etwas monoton. Eine niedrigere Stabilität klingt lebendiger, kann aber auch mal ausreißen. Spiel mit den Reglern, bis es für deinen Zweck passt.

Zum anderen die Audio Tags. Das aktuelle Modell Eleven v3 unterstützt Tags, mit denen du Emotion und Betonung direkt im Text steuerst. Du schreibst sie einfach in eckigen Klammern an die passende Stelle:

[whispers] Das hier flüstere ich dir nur leise zu.
[laughs] Und darüber muss ich kurz lachen.
[excited] Das ist wirklich aufregend!

Solche Tags machen aus einem monotonen Vorlesen einen lebendigen Vortrag. Genau das hebt ElevenLabs für mich von vielen anderen Tools ab, denn diese Inline-Steuerung bietet kaum ein anderer Anbieter.

Tipp

Hör dir jede Ausgabe vor der Veröffentlichung komplett an. KI-Stimmen sind großartig, aber nicht fehlerfrei. Hin und wieder rutscht eine falsche Betonung oder eine seltsame Aussprache durch. Das ist der „Human in the Loop“: Die KI liefert den Entwurf, du gibst die Freigabe.

4. Wofür lohnt sich eine geklonte Stimme?

Vielleicht fragst du dich jetzt, wofür der ganze Aufwand eigentlich gut ist. Aus meiner eigenen Arbeit kann ich dir drei Anwendungen nennen, bei denen eine geklonte Stimme richtig viel Zeit spart.

Der erste Fall sind Podcasts. Du kannst Skripte oder Korrekturen einsprechen lassen, ohne jedes Mal das Mikrofon aufbauen und den Raum vorbereiten zu müssen. Gerade kleine Nachbesserungen, bei denen du sonst eine ganze Aufnahmesession ansetzen würdest, gehen so in Minuten.

Der zweite Fall sind Hörbücher. Ein komplettes Buch selbst einzusprechen, kostet dich Tage im Studio. Mit deiner geklonten Stimme liest die KI das Manuskript vor, und du konzentrierst dich auf das Lektorat und die Feinabstimmung.

Der dritte Fall, und für mich der spannendste, ist mehrsprachiger Content. Du nimmst deine Stimme einmal auf Deutsch auf und kannst sie danach Englisch, Spanisch oder eine andere Sprache sprechen lassen, ohne dass du diese Sprache selbst beherrschst. Für jeden, der international Reichweite aufbauen will, ist das ein echter Hebel. Eleven v3 deckt dafür über 70 Sprachen ab.

Wenn du wissen willst, was ElevenLabs konkret kostet und welcher Tarif zu deinem Vorhaben passt, schau in meinen Artikel zu den ElevenLabs-Preisen.

5. Fazit: So gelingt dein erster Stimmen-Klon

Voice Cloning ist 2026 keine Raketenwissenschaft mehr. Mit ein paar Minuten Audio und dem richtigen Tool bekommst du einen digitalen Abdruck deiner Stimme, der erstaunlich nah ans Original kommt.

Zwei Dinge solltest du dir merken.

Erstens entscheidet die Aufnahme. Investier die meiste Sorgfalt in einen ruhigen Raum, ein gutes Mikrofon und genug abwechslungsreiches Material. Für ein schnelles Ausprobieren reicht der Instant Voice Clone, für professionelle Ergebnisse nimmst du den Professional Voice Clone.

Zweitens gilt: Klone nur deine eigene Stimme oder Stimmen, für die du eine dokumentierte Einwilligung hast. Und behalte die Transparenzpflicht des EU AI Act ab dem 2. August 2026 im Blick.

Wenn du loslegen willst, ist ElevenLabs für mich der beste Startpunkt. Der Creator-Tarif schaltet den Professional Voice Clone frei, mit dem du die natürlichsten Ergebnisse erzielst. Probier es einfach aus und hör dir an, wie sich dein digitaler Zwilling anfühlt.