Mit Text-to-Speech (TTS) kannst du Text in gesprochene Sprache umwandeln.
Das kann in vielerlei Hinsicht nützlich sein:
Du kannst dir Texte vorlesen lassen und sie damit z. B. unterwegs im Auto, Bus oder Bahn hören. Du kannst damit aber auch deinen geschriebenen Content (z. B. Blogartikel oder Social-Media-Posts) vertonen und daraus Podcasts oder Videos machen.
Um noch mehr Zeit dabei zu sparen, kannst du ein TTS-Tool mit einem KI-Textgenerator oder KI-Videogenerator kombinieren.
In den letzten 5 Jahren sind TTS-Tools durch Nutzung von KI-Technologie sehr viel besser geworden. Roboterhaft klingende Stimmen gehören mittlerweile (fast) der Vergangenheit an.
Mit manchen Tools ist es sogar möglich, eine bestimmte Stimme (z. B. deine eigene oder die eines Prominenten) zu klonen.
In diesem Artikel stellen wir dir die 9 der besten TTS-Tools vor, die wir anhand folgender Kriterien verglichen haben:
- Anzahl und Qualität der Stimmen
- verfügbare Sprachen, Dialekte und Akzente
- Zusatzfunktionen wie Sprachstile, Aussprache und SSML
- Preis und Nutzungsrechte
- Integrationen und Support
1. TTS-Tools im Vergleich
Platz | Tool | Sprachqualität | Voice Cloning | Preis |
---|---|---|---|---|
1 | Murf.ai | sehr gut | Ja | 19 $ – 26 $ pro Monat oder individuell |
2 | Play.ht | sehr gut | Ja | 29,25 $ – 49,50 $ pro Monat oder individuell |
3 | Lovo.ai | gut bis sehr gut | Ja | 9,99 $ – 19,99 $ pro Monat oder individuell |
4 | Uberduck.ai | gut bis sehr gut | Ja | kostenlos, ab 8 $ pro Monat |
5 | Amazon Polly | gut bis sehr gut | Nein | Nutzungsabhängig, ab 4 $ pro eine Million Zeichen |
6 | Speechify | gut | Nein | Kostenlos – 9,99 $ pro Monat oder individuell |
7 | Synthesis | gut | Ja | 19 $ – 49 $ pro Monat oder individuell |
8 | Speechelo | gut | Nein | Einmalig 47 $ für lebenslange Lizenz oder 47 $ alle drei Monate für Pro-Version |
9 | ReadSpeaker | gut | Ja | Wort- oder zeichenabhängig, individuell je nach Lösung und Stimme |
2. Die Tools im Detail
Im Folgenden findest du alle Text-to-Speech-Tools im Detail:
2.1 Murf.ai
Murf.ai ist ein AI Voice Generator, der es dir ermöglicht, professionelle Voice-overs für Podcasts, Videos und Präsentationen zu erstellen.
Bei der Sprachgenerierung kannst du aus über 120 Stimmen in 20 Sprachen wählen. Du kannst deinen Text einfach hochladen oder eintippen und ihn mit der Stimme deiner Wahl vertonen lassen. Dabei kannst du auch die Tonhöhe, die Betonung und die Pausen anpassen.
Außerdem bietet Murf.ai einen AI Voice Changer, mit dem du deine eigenen Aufnahmen in Voice-overs umwandeln kannst.
Murf.ai hat ein einfaches und übersichtliches Interface, das dir erlaubt, deine Voice-overs schnell und einfach zu erstellen. Du kannst deine Voice-overs als MP3 oder WAV herunterladen oder direkt mit deinen Videos oder Bildern synchronisieren.
Murf.ai bietet auch eine kollaborative Arbeitsumgebung, in der du deine Projekte mit deinem Team teilen und bearbeiten kannst.
Preise
Murf.ai hat verschiedene Preismodelle für unterschiedliche Bedürfnisse:
- Die kostenlose Version erlaubt dir, 10 Minuten Voiceover pro Monat zu erstellen und zu transkribieren.
- Die Basic-Version kostet 19 $ pro Monat und erlaubt dir, 24 Stunden Voiceover pro Jahr zu erstellen.
- Die Pro-Version kostet 26 $ pro Monat und erlaubt dir, 48 Stunden Voiceover pro Jahr zu erstellen und zu transkribieren.
- Die Enterprise-Version bietet dir unbegrenzte Voiceover-Erstellung und -Transkription sowie weitere Funktionen wie Single-Sign-On (SSO), Service-Level-Agreement und dedizierten Account Manager.
Für wen eignet sich Murf.ai?
Murf.ai eignet sich besonders für Content-Ersteller, die hochwertige Voiceovers für ihre Podcasts oder Videos benötigen. Murf.ai bietet eine große Auswahl an natürlichen Stimmen, die sich für verschiedene Themen und Stimmungen eignen. Außerdem ist Murf.ai sehr benutzerfreundlich und ermöglicht eine schnelle und einfache Erstellung von Voice-overs.
2.2 Play.ht
Play.ht ist eine Online-Plattform für Text-to-Speech, die dir hilft, professionelle Audio-Inhalte aus deinen Texten zu erstellen.
Mit Play.ht kannst du aus über 900 realistischen Stimmen in 142 Sprachen und Akzenten wählen. Du kannst deinen Text einfach kopieren oder importieren und ihn mit der Stimme deiner Wahl vorlesen lassen. Dabei kannst du auch Sprachstile, Aussprache und SSML-Tags verwenden, um die Audio-Qualität zu verbessern.
Du kannst deine Audio-Inhalte als MP3 oder WAV herunterladen oder direkt auf deiner Website einbetten. Play.ht bietet dir auch SEO-freundliche Audio-Widgets, die du auf deinen Blogartikeln oder E-Learning-Seiten platzieren kannst. So kannst du deine Besucher länger auf deiner Seite halten und deine Reichweite erhöhen.
Preise
Play.ht hat verschiedene Preismodelle für unterschiedliche Bedürfnisse:
- Die kostenlose Version erlaubt dir, 5.000 Wörter pro Monat zu vertonen und Voice Cloning auszuprobieren.
- Die Professional-Version kostet 29,25 $ pro Monat und erlaubt dir, 600.000 Wörter pro Jahr zu vertonen.
- Die Premium-Version kostet 49,50 $ pro Monat und erlaubt dir, unbegrenzt Wörter zu vertonen und Zugang zu allen ultra-realistischen Stimmen zu haben.
Für wen eignet sich Play.ht?
Play.ht eignet sich besonders für Webseiten-Betreiber, die ihre Texte in Audio-Inhalte umwandeln wollen.
Play.ht bietet eine große Auswahl an realistischen Stimmen, die sich für verschiedene Sprachen und Akzente eignen. Außerdem ist Play.ht sehr einfach zu bedienen und ermöglicht eine nahtlose Integration von Audio-Inhalten auf deiner Website.
2.3 Lovo
Lovo ist ein AI Voice Generator, der es dir ermöglicht, personalisierte und emotionale Stimmen für deine Texte zu erstellen. Mit Lovo kannst du aus über 180 natürlichen und ausdrucksstarken Stimmen in 34 Sprachen wählen.
Du kannst deinen Text einfach eingeben oder hochladen und ihn mit der Stimme deiner Wahl vorlesen lassen. Dabei kannst du auch die Emotionen, die Geschwindigkeit und die Tonhöhe der Stimme anpassen.
Lovo hat ein intuitives und modernes Interface, das dir erlaubt, deine Stimmen schnell und einfach zu erstellen. Du kannst deine Stimmen als MP3 oder WAV herunterladen oder direkt mit deinen Videos oder Bildern synchronisieren.
Das Tool ermöglicht dir auch, deine eigenen Stimmen zu klonen oder Stimmen auf Basis verschiedener Parameter wie Alter, Geschlecht oder Akzent „zusammenzumixen“.
Preise
Lovo hat verschiedene Preismodelle für unterschiedliche Bedürfnisse:
- Die kostenlose Version erlaubt dir, 1.000 Zeichen pro Monat zu vertonen und alle Stimmen auszuprobieren.
- Die Basic-Version kostet 9,99 $ pro Monat und erlaubt dir, 10.000 Zeichen pro Monat zu vertonen.
- Die Pro-Version kostet 19,99 $ pro Monat und erlaubt dir, 100.000 Zeichen pro Monat zu vertonen.
- Die Enterprise-Version bietet dir unbegrenzte Vertonung sowie weitere Funktionen wie API-Zugang, Voice Cloning und Custom Voice Creation.
Für wen eignet sich Lovo.ai?
Lovo eignet sich besonders für Marketer, die personalisierte und emotionale Stimmen für ihre Kampagnen benötigen. Lovo bietet eine große Auswahl an natürlichen und ausdrucksstarken Stimmen, die sich für verschiedene Szenarien und Zielgruppen eignen. Außerdem ist Lovo sehr innovativ und ermöglicht eine individuelle Gestaltung von Stimmen.
2.4 Uberduck
Uberduck ist eine Plattform für Text-to-Speech, Sprachautomatisierung und synthetische Medien. Mit Uberduck.ai kannst du AI-Sprachaufnahmen mit über 5.000 verschiedenen Stimmen erstellen, die von Prominenten, Musikern, Cartoon-Figuren und mehr imitiert werden.
Du kannst auch deine eigene Stimme klonen oder AI-Rap-Songs mit deinen eigenen Texten generieren. Zusätzlich bietetet bietet auch APIs an, mit denen du Audio-Apps entwickeln kannst.
Preise
Die Preise von Uberduck.ai sind abhängig von der Anzahl der verwendeten Stimmen und der Länge der generierten Audiodateien:
Es gibt einen kostenlosen Plan, der dir Zugang zu einigen Stimmen und bis zu 10 Minuten Audio pro Monat bietet.
Die kostenpflichtigen Pläne beginnen bei 8 $ pro Monat und bieten dir mehr Stimmen, mehr Audio-Minuten und mehr Funktionen wie benutzerdefinierte Sprachklone und AI-Raps.
Für wen eignet sich Uberduck.ai?
Uberduck.ai richtet sich an Kreative, die mit Sprache experimentieren und personalisierte Medien für ihre Zielgruppe erstellen wollen. Du kannst zwischen einem lustigen Meme-Modus, einem professionellen Voiceover oder einem originellen Rap-Song wählen, je nachdem, was zu deinem Projekt passt. Du kannst auch Teil der Open-Source-Voice-AI-Community werden und an der Entwicklung neuer Funktionen und Stimmen teilhaben.
2.5 Amazon Polly
Amazon Polly ist ein Text-to-Speech-Service von Amazon Web Services (AWS), der dir 200 natürlichen Stimmen in 31 Sprachen bietet.
Du kannst deinen Text einfach eingeben oder hochladen und ihn mit der Stimme deiner Wahl vorlesen lassen. Dabei kannst du auch SSML-Tags verwenden, um die Sprachqualität zu verbessern.
Amazon Polly hat eine leistungsfähige und skalierbare Sprachengine, die dir erlaubt, große Mengen an Text in kurzer Zeit zu vertonen. Du kannst deine Sprachausgabe als MP3 oder OGG herunterladen oder direkt in deinen Anwendungen integrieren. Amazon Polly ermöglicht dir auch, deine eigenen Stimmen zu klonen oder zu erstellen, indem du den „Brand Voice Service“ nutzt.
Preise
Amazons TTS-Service hat ein nutzungsbasiertes Preismodell für verschiedene Bedürfnisse. Die Preise richten sich nach der Anzahl der vertonten Zeichen pro Monat:
Die ersten 5 Millionen Zeichen pro Monat sind kostenlos. Danach kostet jede weitere Million Zeichen 4 $ für Standard-Stimmen und 16 $ für Neural-Stimmen.
Für wen eignet sich Amazon Polly?
Amazon Polly eignet sich besonders für Entwickler, die hochwertige Sprachausgabe für ihre Anwendungen benötigen. Es bietet eine große Auswahl an natürlichen und vielseitigen Stimmen, die sich für verschiedene Umgebungen und Anforderungen eignen. Außerdem ist Amazon Polly sehr leistungsfähig und skalierbar und bietet eine individuelle Gestaltung von Stimmen.
2.6 Speechify
Speechify ist eine Text-to-Speech-App, die dir hilft, schneller und effizienter zu lesen. Mit Speechify kannst du jeden Text in gesprochene Sprache umwandeln und dir vorlesen lassen.
Besonders gefällt mir dabei die Vielzahl an Textformaten, die du zur Sprachsynthese nutzen kannst. Du kannst nicht nur Textdateien importieren, sondern auch Webseiten, E-Mails, PDFs oder Bücher. Dabei müssen diese nicht unbedingt in Textform vorlesen, du kannst ein Buchseite auch einfach abfotografieren. Speechify erkennt automatisch den Text und liest ihn dir mit einer klaren und angenehmen Stimme vor.
Speechify hat eine intelligente und anpassbare Sprachengine, die dir erlaubt, die Stimme, die Geschwindigkeit und die Tonhöhe nach deinem Geschmack einzustellen. Du kannst aus über 100 Stimmen in 30 Sprachen wählen.
Das Tool bietet dir auch eine Lernfunktion, die dir hilft, deine Aussprache und dein Vokabular zu verbessern. Außerdem kannst du deine Texte als MP3 oder Podcasts herunterladen oder teilen.
Preise
Speechify hat drei verschiedene Preismodelle:
- Die kostenlose Version erlaubt dir, unbegrenzt Texte zu vertonen und alle Stimmen auszuprobieren.
- Die Premium-Version kostet 9,99 $ pro Monat und erlaubt dir, zusätzliche Funktionen wie Lernmodus, Offline-Zugang und Cloud-Speicher zu nutzen.
- Die Enterprise-Version bietet dir individuelle Lösungen für dein Unternehmen oder deine Organisation.
Für wen eignet sich Speechify?
Speechify eignet sich am besten zum Lernen oder Lesen unterwegs, z. B. kannst du dir mit Speechify ein Buch vorlesen lassen, wenn du gerade Auto fährst oder Joggen gehst.
Dafür sind die iOS- und die Android-App optimal. Praktisch finde ich auch, dass du die Vorlesegeschwindigkeit anpassen kannst (von Langsamer bis Speed Reader).
2.7 Synthesis
Synthesis ist ein AI Voice Generator, der es dir ermöglicht, kreative und originelle Stimmen für deine Texte zu erstellen. Mit Synthesis kannst du aus über 200 einzigartigen und charaktervollen Stimmen in 40 Sprachen wählen.
Du kannst deinen Text einfach eingeben oder hochladen und ihn mit der Stimme deiner Wahl vorlesen lassen. Dabei kannst du auch die Emotionen, die Persönlichkeit und den Hintergrund der Stimme anpassen.
Synthesis hat ein künstlerisches und inspirierendes Interface, das dir erlaubt, deine Stimmen spielerisch und intuitiv zu erstellen. Du kannst deine Stimmen als MP3 oder WAV herunterladen oder direkt mit deinen Videos oder Bildern synchronisieren. Synthesis bietet dir auch die Möglichkeit, deine eigenen Stimmen zu klonen oder zu erstellen, indem du verschiedene Parameter wie Alter, Geschlecht und Akzent einstellst.
Preise
Synthesis hat vier verschiedene Preismodelle für unterschiedliche Bedürfnisse:
- Die kostenlose Version erlaubt dir, 5 Minuten Voiceover pro Monat zu erstellen und alle Stimmen auszuprobieren.
- Die Basic-Version kostet 19 $ pro Monat und erlaubt dir, 60 Minuten Voiceover pro Monat zu erstellen.
- Die Pro-Version kostet 49 $ pro Monat und erlaubt dir, 180 Minuten Voiceover pro Monat zu erstellen.
- Die Enterprise-Version bietet dir unbegrenzte Voiceover-Erstellung sowie weitere Funktionen wie API-Zugang, Voice Cloning und Custom Voice Creation.
Für wen eignet sich Synthesis?
Synthesis eignet sich besonders für Künstler, die kreative und originelle Stimmen für ihre Projekte benötigen. Synthesis bietet eine große Auswahl an einzigartigen und charaktervollen Stimmen, die sich für verschiedene Genres und Stile eignen. Außerdem ist Synthesis sehr künstlerisch und ermöglicht eine individuelle Gestaltung von Stimmen.
2.8 Speechelo
Speechelo ist ein AI Voice Generator, der es dir ermöglicht, menschlich klingende Stimmen für deine Texte zu erstellen.
Mit Speechelo kannst du aus über 60 realistischen Stimmen in 23 Sprachen wählen. Du kannst deinen Text einfach eingeben oder hochladen und ihn mit der Stimme deiner Wahl vorlesen lassen. Dabei kannst du auch die Emotionen und den Tonfall der Stimme anpassen.
Speechelo hat ein simples und benutzerfreundliches Interface, das dir erlaubt, deine Stimmen in wenigen Schritten zu erstellen. Du kannst deine Stimmen als MP3 herunterladen oder direkt auf deiner Website oder deinen sozialen Medien teilen. Speechelo bietet dir auch eine 60-Tage-Geld-zurück-Garantie, falls du nicht zufrieden bist.
Preise
Speechelo gibt es zum einen als Lifetime-Version. Du kannst das Tool für 47 $ kaufen und unbegrenzt Stimmen erstellen. Du kannst auch ein Upgrade auf Speechelo Pro machen, um Zugang zu mehr Stimmen, mehr Sprachen und mehr Funktionen zu bekommen. Speechelo Pro kostet 47 $ alle drei Monate.
Für wen eignet sich Speechelo?
Speechelo eignet sich besonders für Video-Ersteller, die menschlich klingende Stimmen für ihre Videos benötigen. Speechelo bietet eine gute Auswahl an realistischen Stimmen, die sich für verschiedene Themen und Stimmungen eignen. Außerdem ist Speechelo sehr günstig und einfach zu bedienen und bietet eine Geld-zurück-Garantie.
2.9 ReadSpeaker
ReadSpeaker ist ein Text-to-Speech-Anbieter, der es dir ermöglicht, deinen Inhalten und Produkten eine Stimme zu verleihen.
Dabei kannst du aus über 110 natürlichen und anpassbaren Stimmen in 35 Sprachen wählen. Du kannst deinen Text einfach online eingeben oder hochladen und ihn mit der Stimme deiner Wahl vorlesen lassen. Dabei kannst du auch die Sprachqualität, die Geschwindigkeit und die Lautstärke einstellen.
ReadSpeaker hat verschiedene Lösungen für verschiedene Anwendungsfälle. Du kannst Text-to-Speech online nutzen, um deine Website oder deine Apps mit Sprachausgabe zu versehen. Du kannst auch Sprachproduktion nutzen, um deine eigenen Audio-Dateien mit Text-to-Speech zu erstellen. Oder du kannst Text-to-Speech für eingebettete, Desktop- oder Server-Systeme nutzen, um deinen Geräten oder Anwendungen eine Stimme zu geben.
Preise
Die Preise von ReadSpeaker sind leider nicht öffentlich einsehbar. Sie richten sich jedoch nach der Anzahl der Wörter oder Zeichen, die du vertonen möchtest, sowie nach der gewählten Lösung und Stimme.
Du kannst auch eine kostenlose Testversion anfordern, um ReadSpeaker auszuprobieren.
Für wen eignet sich ReadSpeaker?
ReadSpeaker eignet sich insbesondere für größere Unternehmen und Organisationen mit größerem Text-to-Speech-Bedarf. Für Content Creator oder Solo-Selbstständige ist eher ungeeignet.
Alternative: Bunny Studio
Du hast keine Lust auf KI-generierte Sprache? Dann könnte Bunny Studio (ehemals VoiceBunny) eine gute Alternative für dich darstellen.
Bunny Studio ist eine Online-Plattform für professionelle Voice-overs mit echten Menschen, die deine Texte einsprechen.
Mit Bunny Studio kannst du aus über 28.000 geprüften Sprechern in über 50 Sprachen wählen. Du kannst deinen Text einfach eingeben oder hochladen und ihn von dem Sprecher deiner Wahl einsprechen lassen. Dabei kannst du auch die Stimmeigenschaften, den Stil und den Ton angeben.
Bunny Studio hat einen schnellen und einfachen Bestellprozess. Oft bekommst du deine Voice-overs schon innerhalb von Minuten oder wenigen Stunden zu erhalten. Du kannst deine Voice-overs als MP3 oder WAV herunterladen oder direkt auf deiner Website oder deinen sozialen Medien teilen. Der Marktplatz bietet dir auch eine Zufriedenheitsgarantie, die dir erlaubt, kostenlose Revisionen oder Rückerstattungen anzufordern.
Preise
Die Preise bei VoiceBunny richten sich nach der Länge des Textes, der Qualität des Sprechers und der Art des Projekts.
Die günstigsten Preise beginnen bei 0,03 $ pro Wort für „Speedy-Voiceovers“ und gehen bis zu 0,95 $ pro Wort für „Premium-Voiceovers“.
Für wen eignet sich VoiceBunny?
VoiceBunny eignet sich besonders für dich, wenn du professionelle Voiceovers benötigst. Es bietet eine riesige Auswahl an geprüften Sprechern, die sich für so ziemlich alle Genres und Formate eignen.
3. Mit welchen Tools kann ich Prominentenstimmen imitieren?
Prominentenstimme | Mögliche Tools |
---|---|
Adele | Uberduck |
Albert Einstein | FakeYou |
Angelina Jolie | Uberduck |
Arnold Schwarzenegger | Celebrity Voice Changer |
Barack Obama | Uberduck |
Bill Gates | FakeYou |
Beyoncé | Uberduck |
Bruno Mars | FakeYou |
Celine Dion | Uberduck |
David Attenborough | Speechify |
Donald Trump | Uberduck |
Dwayne Johnson | Speechify |
Ellen DeGeneres | Celebrity Voice Changer |
Elon Musk | FakeYou |
Eminem | Uberduck |
Emma Watson | Speechify |
Gwyneth Paltrow | Speechify |
James Earl Jones | Celebrity Voice Changer |
Jay-Z | Uberduck |
Jennifer Aniston | Speechify |
Jeff Bezos | FakeYou |
Johnny Depp | Celebrity Voice Changer |
Julia Roberts | Speechify |
Kanye West | Uberduck |
Katy Perry | FakeYou |
Kim Kardashian | FakeYou |
Lady Gaga | Uberduck |
Leonardo DiCaprio | Uberduck |
Mark Zuckerberg | FakeYou |
Meryl Streep | Celebrity Voice Changer |
Morgan Freeman | Uberduck |
Rihanna | FakeYou |
Robert Downey Jr. | Uberduck |
Samuel L. Jackson | Speechify |
Scarlett Johansson | Celebrity Voice Changer |
Shakira | Uberduck |
Snoop Dogg | Speechify |
Stephen Hawking | FakeYou |
Steve Jobs | FakeYou |
Steve Wozniak | FakeYou |
Taylor Swift | FakeYou |
Tom Cruise | Celebrity Voice Changer |
Tom Hanks | Celebrity Voice Changer |
Will Smith | Speechify |
4. FAQ
Hier habe ich dir Antworten auf häufige Fragen rund um TTS-Tools zusammengestellt:
SSML-Tags sind spezielle Markierungen, die du in deinem Text verwenden kannst, um die Sprachausgabe zu beeinflussen. Mit SSML-Tags kannst du zum Beispiel die Aussprache, die Betonung, die Geschwindigkeit oder die Lautstärke der Stimme anpassen.
SSML-Tags sind eine standardisierte Methode, um Text-to-Speech zu verfeinern und zu personalisieren. Sie werden von verschiedenen Text-to-Speech-Anbietern unterstützt, aber nicht alle Tags sind bei allen Anbietern verfügbar oder funktionieren gleich. Du solltest daher immer die Dokumentation des jeweiligen Anbieters überprüfen, bevor du SSML-Tags verwendest.
Es gibt verschiedene Möglichkeiten, wie du Text-to-Speech in deine Website oder deine App integrieren kannst. Eine Möglichkeit ist, einen Text-to-Speech-Anbieter zu nutzen, der dir eine API oder ein SDK zur Verfügung stellt.
Dabei musst du in der Regel einen Code schreiben oder einfügen, um die Sprachausgabe zu aktivieren und zu steuern.
Eine andere Möglichkeit ist, einen Text-to-Speech-Anbieter zu nutzen, der dir ein Widget oder ein Plugin zur Verfügung stellt. Dabei musst du in der Regel nur ein Skript oder einen Link kopieren oder installieren, um die Sprachausgabe zu aktivieren und anzupassen.