Mit einem KI-Sprachgenerator (auch KI-Stimmengenerator genannt) kannst du Text in gesprochene Sprache umwandeln.
Du kannst dir damit z. B. Texte unterwegs im Auto oder der Bahn vorlesen lassen oder deine Blogartikel oder Social-Media-Posts vertonen und daraus Podcasts oder Videos machen.
Um noch mehr Zeit dabei zu sparen, kannst du einen KI-Sprachgenerator mit einem KI-Textgenerator oder KI-Videogenerator kombinieren.
Mit manchen Tools ist sogar Voice Cloning möglich, das heißt, dass du damit deine eigene Stimme klonen kannst.
In diesem Artikel stellen wir dir die fünf besten KI-Sprachgeneratoren vor, die wir anhand von Kriterien wie Anzahl und Qualität der Stimmen, Audioqualität, Preis und Funktionsumfang objektiv für dich bewertet und verglichen haben.
Vier der fünf KI-Sprachgeneratoren bieten kostenlose Basisversionen an, die dir ermöglichen, die Tools ausgiebig zu testen oder sogar kleinere Projekte umzusetzen.
KI-Sprachgeneratoren im Vergleich
Platz | Tool | Deutsche Sprachqualität | Deutsche Stimmen | Deutsche Premium-Stimmen | Voice Cloning | Voice Changer | Free-Version | Preis (netto, pro Monat) |
---|---|---|---|---|---|---|---|---|
1 | Fliki | sehr gut | 28 | 37 | ab Premium, auch Deutsch | 5 Min. (Monat) | ab 21 $ | |
2 | ElevenLabs | sehr gut | 31 | 10.000 Zeichen (Monat) | ab 5 $ | |||
3 | Murf.ai | sehr gut | 4 | 3 | (auf Anfrage) | 10 Min. (insges.) | ab 19 $ | |
4 | PlayHT | gut | 34 | (nur Englisch) | 5.000 Wörter | ab 29 $ | ||
5 | Speechify | gut | 19 | 10 Min. | ab 24 $ | |||
6 | LOVO | mittelmäßig | 19 | ab 24 $ |
KI-Sprachgeneratoren im Detail
Im Folgenden findest du alle KI-Sprachgeneratoren im Detail. Mit Sprech-Beispielen, Screenshots und umfassender Bewertung von Bedienung, Sprachqualität und Funktionsumfang:
1. Fliki
Fliki ist der KI-Sprachgenerator, den ich aktuell am meisten nutze und der am besten im Test abgeschnitten hat. Und das hat vielerlei Gründe.
Erstens bietet Fliki von allen Sprach-Tools die größte Auswahl an deutschen Stimmen. Insgesamt gibt es 66 deutsche Stimmen:
Zweitens bietet Fliki die deutschen Stimmen mit der besten Qualität. Die deutschen Standard-Stimmen sind qualitativ vergleichbar mit denen von Murf.ai und play.ht (und überschneiden sich auch teilweise, die Amala von Fliki.ai ist die gleiche Amala wie von play.ht).
Im Gegensatz zu den anderen KI-Stimmengeneratoren bietet Fliki jedoch auch 39 deutsche Premium-Stimmen an, die qualitativ deutlich besser sind als die Standard-Stimmen.
Hier ein Sprech-Beispiel anhand der ersten drei Absätze von Franz Kafkas „Das Schloß“:
Der einzige Anbieter, der auch deutsche Premium-Stimmen bietet, ist Murf.ai. Hier kann man jedoch nur aus 4 KI-Stimmen wählen.
Drittens bietet Fliki, neben ElevenLabs, als einziges Tool, die Möglichkeit einfach und schnell eine deutsche Stimme zu klonen. Dazu brauchst du lediglich ein Premium-Paket:
Andere KI-Sprachgeneratoren bieten auch Voice Cloning an, allerdings meistens nur auf Anfrage (heißt übersetzt: sehr teuer!) oder nur auf Englisch an.
Fliki bietet auch eine gute kostenlose Version an, mit der man 5 Minuten Audio pro Monat erstellen und das Tool ausgiebig testen kann.
Leider gibt es die Premium-Stimmen (von Fliki „Ultra realistic voices“ genannt) erst mit dem Premium-Tarif ab 66 $ pro Monat. Dafür enthält dieser Voice Cloning und bietet mit 10 Stunden Audio- und Videogenerierung pro Monat ein sehr gutes Preis-Leistungs-Verhältnis.
2. ElevenLabs
ElevenLabs ist eines der aktuell besten und bekanntesten Text-to-Speech-Tools und konnte uns mit seinem großen Funktionsumfang sowie der Qualität der KI-Stimmen beeindrucken, so dass wir es auf dem zweiten Platz sehen.
Du kannst mit ElevenLabs nicht nur mit vorgefertigten KI-Stimmen Text in Sprache umwandeln, sondern auch deine eigene Stimme klonen, was neben Fliki keine weitere Lösung anbietet.
Über die hohe Qualität der Stimmen haben wir schon gesprochen. Sie können für verschiedene Anwendungen genutzt werden, wie zum Beispiel für Voice-Overs in YouTube-Videos oder für die Erstellung von künstlichen Stimmen für virtuelle Assistenten.
Sie klingen (überwiegend) natürlich und sind oft nur von menschlichen Stimmen zu unterscheiden, wenn man genauer hinhört.
Die Benutzeroberfläche von ElevenLabs ist zudem intuitiv und benutzerfreundlich. Du kannst entweder eine der vorgefertigten KI-Stimmen verwenden oder deine eigene Stimme hochladen und klonen:
Die Stimmenklonung (engl. Voice Cloning) ist ein besonderes Highlight von ElevenLabs. Du kannst eine Aufnahme deiner eigenen Stimme hochladen und die Software erstellt daraus eine künstliche Stimme, die deiner sehr ähnlich klingt.
Dieser Prozess ist einfach und unkompliziert. Die Qualität des Ergebnisses hängt natürlich von der Qualität der ursprünglichen Aufnahme ab. Je klarer und deutlicher deine Aufnahme ist, desto besser wird das Ergebnis sein.
ElevenLabs bietet verschiedene Preispakete an:
Es gibt eine kostenlose Version, die dir bis zu 10.000 Zeichen pro Monat und die Erstellung von bis zu drei benutzerdefinierten Stimmen ermöglicht.
Für nur 5 Dollar pro Monat erhältst du im Starter-Paket die Möglichkeit zur sofortigen Stimmenklonung (Instant Voice Cloning) und hast bis zu 30.000 Zeichen pro Monat zur Verfügung. Es gibt auch teurere Pakete mit mehr Funktionen und größerem Zeichenlimit, z. B. für größere Unternehmen.
3. Murf.ai
Murf.ai schneidet in unserem Test als drittbester Sprachgenerator ab:
Die deutschen Premium-Stimmen sind qualitativ hochwertig und mindestens genauso wie die von Fliki, wenn nicht sogar einen Tick besser.
Wo Murf.ai gegenüber Fliki klar verliert, ist die Stimmauswahl. Während du bei Fliki 27 deutsche Standard-Stimmen und 37 Premium-Stimmen bekommst, gibt es bei Murf.ai nur eine vergleichsweise magere Auswahl 3 Standard-Stimmen und 4 Premium-Stimmen:
Insgesamt kannst du bei der Sprachgenerierung kannst du aus 120+ Stimmen in 20+ Sprachen wählen. Wie bei allen KI-Stimmengeneratoren gibt es die besten und die meisten Stimmen auf Englisch.
Alleinstellungsmerkmal von Murf.ai ist der „AI Voice Changer“, mit dem du eine qualitativ nicht so hochwertige eigene Aufnahme, in eine professionell eingesprochene verwandeln kannst. Dabei werden z. B. Hintergrundgeräusche, Stottern oder Füllwörter wie „Äh“ entfernt.
Murf.ai punktet zudem durch seine Benutzeroberfläche und vielfältigen Einstellungsmöglichkeiten. Es bietet ein paar Anpassungsoptionen mehr als Fliki, z. B. kann man die Tonhöhe und die Pausenlänge bei jedem Sprachblock einstellen (letzteres geht bei Fliki nur für die gesamte Audiodatei).
Murf.ai hat einen guten kostenlosen Tarif, mit dem du 10 Minuten Audio pro Monat erstellen kannst und Zugriff auf alle Stimmen hast. Der reicht, um das Tool ausgiebig zu testen.
Solltest du dich für Murf.ai entscheiden, würde ich dir zum Pro-Tarif raten, der mit 26 $ nur 7 $ pro Monat teurer als der Basic-Tarif ist. Dafür bekommst du jedoch doppelt so viel Generierungszeit und hast Zugriff auf die Premium-Stimmen und den AI Voice Changer.
4. PlayHT
PlayHT ist ein bekannter und beliebter KI-Sprachgeneratoren und erreicht in unserem Test einen guten vierten Platz.
Es bietet eine gigantische Auswahl aus 900+ Stimmen in 142 Sprachen. 145 sind Englisch und mit vielen verschiedenen Akzenten verfügbar.
Von allen KI-Sprachgeneratoren bietet es die modernste und schickeste Benutzeroberfläche und hat in allen Tarifen Voice Cloning inklusive:
Ein großes Manko ist leider:
Zwar bietet PlayHT eine große Auswahl aus 34 deutsche KI-Stimmen an, dabei handelt es sich jedoch nur um Standard-Stimmen. Die neuen Premium-Stimmen (von PlayHT „Ultra Realistic Voices“ genannt) gibt es bislang nur auf Englisch.
Zudem lassen sich die deutschen Stimmen nur im alten Legacy-Interface nutzen, das etwas altbacken ist und weniger Funktionen hat.
Auch Voice Cloning ist aktuell ebenfalls nur auf English verfügbar, was sehr schade ist.
Was für PlayHT spricht, ist die Preisgestaltung. Schon im Personal-Tarif für 7,20 $ pro Monat kannst du pro Jahr 120.000 Wörter in Sprache umwandeln, du hast Zugriff auf alle Stimmen und kannst fünf Stimmklone anlegen (bei Fliki gibt es nur im Premium-Tarif für 66 $ lediglich einen Stimmklon).
PlayHT ist alles in allem eine gute Wahl, wenn dir die deutsche Sprachqualität nicht super wichtig ist oder du ausschließlich Voice-overs oder Voice Cloning auf Englisch machen möchtest.
5. Speechify
Speechify ist ein umfangreiches Tool mit verschiedenen Text-to-Speech-Funktionen:
Die Hauptfunktion von Speechify ist das Vorlesen von Büchern oder Dokumenten in vielen verschiedenen Dateiformaten. Dazu gibt es auch Apps für Android, iOS und Mac. Speechify bietet auch eine große Bibliothek an Hörbüchern.
Auf Deutsch ist die „Vorlesefunktion“ leider wenig brauchbar. Es gibt elf deutsche KI-Stimmen, von denen sieben komplett unbrauchbar sind. Die restlichen vier Stimmen sind okay, aber mehr auch nicht.
In diesem Artikel geht es jedoch nicht um die Vorlesefunktion, sondern um das Speechify AI Voice Studio. Neben der Erstellung von KI-Voice-overs, kann es Voice Cloning, Untertitel generieren und enthält einen KI-Videogenerator.
Die Benutzeroberfläche ist intuitiv und modern. Neben grundlegenden Einstellungen bietet der Audioeditor viele erweiterte Optionen, wie die Betonung einzelner Wörter, Tonhöhe und Pauseneinstellungen:
Worin Speechify leider nicht überzeugen kann, sind die deutschen KI-Stimmen:
Speechify enthält die gleichen 19 deutschen Standard-Stimmen, die man auch bei PlayHT, LOVO und Fliki finden kann. PlayHT hat jedoch noch 15 zusätzliche Stimmen und Fliki hat 9 weitere Standard-Stimmen und 37 Premium-Stimmen.
Alles in allem landet Speechify auf dem vierten Platz, weil die deutsche Stimmqualität und das Interface ein wenig besser sind als bei LOVO, dem letztplatzierten KI-Stimmengenerator.
6. LOVO
LOVO kann in vielen Punkten mit den anderen KI-Sprach-Tools mithalten:
Es hat ein modernes und benutzerfreundliches Interface und bietet eine gute Auswahl an Stimmen, darunter auch 19 deutsche Stimmen. Die Sprachqualität der englischsprachigen Stimmen ist sehr gut.
Dennoch muss sich LOVO in unserem Test nur mit dem letzten Platz begnügen. Denn es hapert bei der Qualität der deutschen Stimmen. Zum einen bietet LOVO, ähnlich wie PlayHT, keine deutschen Premium-Stimmen.
Die verfügbaren Standard-Stimmen klingen leicht monoton und roboterhaft, wie du in folgendem Beispiel hören kannst:
Dazu kommt, dass LOVO als einziger getesteter KI-Stimmengenerator keinen kostenlosen Tarif bietet, sondern lediglich einen 14-tägigen Trial und ein etwas schlechteres Preis-Leistungs-Verhältnis als die anderen Tools hat.
Im Basic-Tarif, den es ab 19 $ pro Monat gibt, stehen dir lediglich 2 Stunden an Stimmgenerierungszeit zur Verfügung. Bei Fliki bezahlst du für den Basic-Tarif, der ebenfalls 2 Stunden enthält, nur 6 $ pro Monat.
Premium- vs. Standard-Stimmen
Viele Anbieter unterschieden bei KI-Stimmen zwischen Premium-Stimmen (auch „Pro“ oder „Ultra realistic“ genannt) und Standard-Stimmen.
Ich würde immer zu einem Anbieter und Tarif raten, der Premium-Stimmen beinhaltet, wie Fliki Premium oder Murf.ai Pro. Diese klingen merklich natürlicher, bieten eine bessere Betonung, klingen weniger monoton und roboterhaft und haben eine höhere Aufnahmequalität.
Das liegt daran, dass diese mit mehr und hochwertigerem Audiomaterial trainiert wurden als die Standard-Stimmen.
Natürlich kommen auch Premium-Stimmen nicht ganz an menschliche Voiceover-Künstler heran, vor allem bei Belletristik oder Texten mit hohem Dialoganteil. Aber KI-Sprachgenerierung wird immer besser und wird mittel- bis langfristig immer mehr Voiceover-Künstler ersetzen.
FAQ
Hier habe ich dir Antworten auf häufige Fragen rund um KI-Sprachgeneratoren zusammengestellt:
Dass KI-generierte Stimmen monoton oder roboterhaft klingen, kann drei Gründe haben:
- Das verwendete KI-Modell ist nicht gut
- Es wurden zu wenig Trainingsdaten verwendet
- Die Qualität der Trainingsdaten ist nicht gut
SSML-Tags sind spezielle Markierungen, die du in deinem Text verwenden kannst, um die Sprachausgabe zu beeinflussen. Mit SSML-Tags kannst du zum Beispiel die Aussprache, die Betonung, die Geschwindigkeit oder die Lautstärke der Stimme anpassen.
SSML-Tags sind eine standardisierte Methode, um Text-to-Speech zu verfeinern und zu personalisieren. Sie werden von verschiedenen Text-to-Speech-Anbietern unterstützt, aber nicht alle Tags sind bei allen Anbietern verfügbar oder funktionieren gleich. Du solltest daher immer die Dokumentation des jeweiligen Anbieters überprüfen, bevor du SSML-Tags verwendest.