Zum Hauptinhalt springen

Die 8 besten KI-Transkriptionssoftwares (auch kostenlos)

Du suchst nach der besten KI-Transkriptionssoftware? Ich habe 8 Top-Optionen für dich verglichen und Vor- und Nachteile für dich zusammengestellt.

FHFinn Hillebrandt
KI-Tools
Die 8 besten KI-Transkriptionssoftwares (auch kostenlos)
Mit * gekennzeichnete Links sind Affiliate-Links. Kommt über solche Links ein Kauf zustande, bekommen wir eine Provision.

Hast du jemals stundenlang versucht, ein Audio- oder Videointerview in Text umzuwandeln und dabei wertvolle Zeit verloren, die du lieber für wichtigere Aufgaben genutzt hättest?

Oder hast du die Nase voll von teuren Transkriptionsdienstleistern oder -Freelancern?

Dann lies weiter!

Denn es gibt mittlerweile viele tolle KI-gestützte Transkriptionssoftwares, die dir dabei helfen können, automatisiert genaue und lesbare Texte aus deinem Audiomaterial zu erstellen.

Und das oft ohne großen Nachbearbeitungsaufwand! Grand View Research prognostiziert, dass der US-Transkriptionsmarkt von 30,42 Milliarden USD (2024) auf 41,93 Milliarden USD bis 2030 wachsen wird.

In diesem Blogartikel stellen wir dir die 8 besten KI-Transkriptionssoftwares vor, von denen alle (mit Einschränkungen) kostenlos nutzbar sind.

TL;DRDas Wichtigste in Kürze
  • ElevenLabs kombiniert KI-Transkription mit Text-to-Speech in einer Plattform – ideal für Content Creator
  • Sonix.ai überzeugt mit guter deutscher Transkriptionsqualität und 38 unterstützten Sprachen für 10 $/Stunde
  • Alle Tools erreichen 80-95 % Genauigkeit und bieten kostenlose Testversionen – etwas Nachbearbeitung ist immer nötig, aber die Zeitersparnis ist enorm

1. Was ist eine Transkriptionssoftware?

Transkriptionssoftware sind Computerprogramme oder Apps, die darauf ausgelegt sind, gesprochene Sprache in geschriebenen Text umzuwandeln.

Sie eignen sich für die Verschriftlichung vieler verschiedener Audio- und Videoformate, z. B. Interviews, Podcast, Seminare, Workshops, Video-Tutorial oder Online-Meetings.

Im Allgemeinen lassen sich Transkriptionslösungen in drei Kategorien unterteilen:

  1. Nichtautomatisierte Transkriptionssoftwares sind meistens kostenlos oder günstig, aber dafür sehr zeitaufwändig, da du das Transkript selbst schreiben musst. Sie bieten dir jedoch nützliche Funktionen wie Zeitmarken, verlangsamte Abspielgeschwindigkeit oder Textbausteine, um dir die Arbeit zu erleichtern.
  2. Automatisierte Transkriptionssoftwares sind meistens kostenpflichtig oder haben eine begrenzte kostenlose Nutzung, aber sie sparen dir viel Zeit und Mühe, indem sie das Transkript für dich erstellen. Du musst jedoch immer das automatisch erstellte Transkript überprüfen und ggf. korrigieren, da es Fehler enthalten kann. Die Genauigkeit hängt von der Qualität der Audioaufnahme, dem Akzent oder Dialekt der Sprecher, der Stärke der Hintergrundgeräusche und dem Fachvokabular ab.
  3. Transkriptionsdienste sind eine weitere Option, bei der du deine Audioaufnahme an professionelle Transkribierende senden kannst, die das Transkript für dich anfertigen. Das ist die Option mit der höchsten Transkriptionsqualität. Dafür ist sie deutlich teurer und mit längeren Wartezeiten verbunden.

Wie gut sind heutige Transkriptionssoftwares?

Aktuelle automatisierte, also KI-basierte Transkriptionssoftwares erreichen eine Genauigkeit zwischen 80 und 95 % (je nach Input-Qualität, verwendeter Software und Sprache).

Die besten Ergebnisse erhält man (natürlich), wenn man die englische Sprache benutzt, da viele der Anbieter aus den USA oder anderen englischsprachigen Ländern kommen und der englischsprachige Markt der größte und damit wichtigste ist.

Das heißt, dass sie in der Regel ein bisschen Nachbearbeitung erfordern. KI-Transkriptionssoftwares werden jedoch immer besser und bei der derzeit rasanten Entwicklung des KI-Bereichs ist davon auszugehen, dass sie in zwei oder vielleicht drei Jahren fast fehlerfrei arbeiten, auch auf Deutsch.

2. KI-Transkription im Vergleich

Platz
Software
Deutsche Transkriptionsqualität
Genauigkeit
Preis
Kostenloser Tarif?
Sprachen
1ElevenLabssehr gut (minimale strukturelle Fehler)98,11 %Ab 5 $ / Monat29
2Sonix.aigut (kleinere Probleme bei langen Wörtern)94,43 %10,00 $ / Stunde38
3Beeymittelmäßig (Schwächen bei Interpunktion)92,46 %ab 4,50 € / Stunde30
4Nova AIgut (Nachbearbeitung erforderlich)94,17 %10 $ / 150 Min75
5Otter.aiDeutsch nicht unterstützt8,33 $ / 20 Stundennur Englisch
6Amberscriptschlecht (viele Rechtschreibfehler)90,31 %20 € / Stunde (im Abo günstiger)39
7Descriptschlecht (Wörter werden weggelassen)91,47 %12 $ / 10 Stunden mtl.26
8Speaksehr schlecht (fragmentierter Text)89,46 %14 $ / Stunde70

3. Die Testergebnisse im Detail

Für den Test der Transkriptionsqualität haben wir die ersten zwei Absätze von Sebastian Fitzeks „Elternabend" aufgenommen.

Wir haben uns bewusst für einen eher wenig isolierten Raum entschieden und als Mikrofon lediglich das eingebaute Mikrofon eines MacBook Pro 2015 benutzt, um eine alltägliche Situation zu simulieren.

Testaudiodatei:

Lassen Sie mich diese Geschichte an der Stelle beginnen, an der sie hätte enden sollen. Um 16.44 Uhr an einem extrem heißen Sommertag in einer kleinen Einbahnstraße in der Heerstraßensiedlung im Südwesten Berlins. Ich saß hinter dem Lenkrad eines Hundertzwanzigtausend-Euro-Geländewagens, von der albernen Sorte, die in echtem Gelände etwa so offroad-tauglich ist wie ein Liegefahrrad im Dschungel, der von einem völlig bescheuerten Kleinkriminellen aufgebrochen worden war. Ich war dabei, einen Brief zu schreiben. Auf meinem Schoß lag eine in Papier eingewickelte, langstielige blaue Hortensie, und um meinen Hals schlackerte ein lederner Hosengürtel. Die Frau, die sich mir und damit dem parkenden Stadtpanzer näherte, steckte in brombeerfarbenen Yogashorts, die so eng anlagen, dass sie sie wohl vor einen Tannenbaumtrichter gespannt hatte und hindurchgesprungen war, um in sie reinzukommen. An den eher zierlichen Füßen klebten Joggingschuhe in Neonquietschpink. Ein tailliertes, aus Schweiß absorbierendem Slimfit-Stoff gedrechseltes Oberteil mit dem Aufdruck „Save our Planet“ komplettierte ihr Sportoutfit.

3.1 ElevenLabs

ElevenLabs-io

ElevenLabs ist bisher vor allem für seine realistischen KI-Stimmen bekannt. Neu hinzugekommen ist eine Transkriptionsfunktion, die Speech-to-Text und Text-to-Speech in einer Plattform kombiniert.

Und die hat es in sich:

Sie ist nicht nur günstig, sondern auch sehr genau und hat sich im Test gegen alle anderen Transkriptionssoftwares durchsetzen können (selbst gegen Sonix, das lange Zeit auf Platz 1 war).

Damit eignet sich ElevenLabs besonders für Content Creator, die Audio und Text in einem Workflow verarbeiten möchten.

Elevenlabs unterstützt Deutsch und viele weitere Sprachen. Es gibt es auch eine kostenlose Testversion, mit der du dich selbst von der Qualität zu überzeugen kannst:

Benutzeroberfläche und Bedienung

Das Design ist modern und minimalistisch. Die Transkription arbeitet schnell, und die Bedienung erfordert keine lange Einarbeitung:

ElevenLabs Benutzeroberfläche – Speech to Text

Besonders praktisch: Aus dem Transkript lässt sich mit wenigen Klicks eine natürlich klingende Sprachausgabe erzeugen – ideal für Untertitel, Voiceovers oder Podcasts.

Und falls es mal besonders genau sein muss: Neben der automatisierten KI-Transkription kannst du beiElevenLabs auch eine professionelle Transkription buchen, die innerhalb von 48 Stunden von echten Menschen erstellt wird.

ElevenLabs-Upload

Außerdem kannst du das Transkript direkt als Untertitel unter die Audiodatei legen. Das ist gut umgesetzt und funktioniert mit wenigen Klicks, sodass Podcasts oder Interviews sofort barrierefreier werden. ElevenLabs bietet verschiedene Exportformate an: PDF, DOCX, JSON, HTML, SRT und VTT. Damit kannst du die Transkripte flexibel weiterverwenden – für Textdokumente, Webseiten oder Untertitel.

Schwächen

  • Die Transkriptionsfunktion ist noch relativ neu und bietet weniger Bearbeitungsoptionen als etablierte Tools.
  • Längere Audio-Dateien benötigen je nach Tarif ein Upgrade, da die kostenlosen Limits schnell erreicht sind.

Testergebnisse

In unserem Test mit Sebastian Fitzeks „Elternabend“ erreichte ElevenLabs eine Zeichengenauigkeit von 98,11 % und eine Wortgenauigkeit von 90,26 % – das beste Ergebnis im Test.

ElevenLabs Transkription (98,11% Genauigkeit)
HinzugefügtEntferntGeändert
Lassen Sie mich diese Geschichte an der Stelle beginnen, an der sie hätte enden sollen. Um 16:44 Uhr(16.44 Uhr) an einem extrem heißen Sommertag in einer kleinen Einbahnstraße in der Heerstraßensiedlung im Südwesten Berlins.

Ich saß hinter dem Lenkrad eines hundertzwanzigtausend Euro(Hundertzwanzigtausend-Euro-)Geländewagens von der albernen Sorte, die in echtem Gelände etwa so Offroad-tauglich(offroad-tauglich) ist wie ein Liegefahrrad im Dschungel, der von einem völlig bescheuerten Kleinkriminellen aufgebrochen worden war. Ich war dabei, einen Brief zu schreiben. Auf meinem Schoß lag eine in Papier eingewickelte, langstielige blaue Hortensie und um meinenummeinen Hals schlackerte ein lederner Hosengürtel.

Die Frau, die sich mir und damit dem parkenden Stadtpanzer näherte, steckte in brombeerfarbenen YogaShorts(Yogashorts), die so eng anlagen, dass sie sie wohl vor einem(einen) Tannenbaumtrichter gespannt hatte und hindurchgesprungen war, um in sie reinzukommen. An den eher zierlichenerzieherlichen Füßen klebten Joggingschuhe in Neonquietschpink. Ein tailliertes, aus schweißabsorbierendem Slim Fit(Slimfit-)Stoff gedrechseltes Oberteil mit dem Aufdruck "Save our Planet"(„Save our Planet“) komplettierte ihr Sportoutfit.

Bewertung

ElevenLabs liefert insgesamt ein strukturell stimmiges Transkript mit wenigen groben Ausreißern. Die Zeichensetzung ist meist korrekt, lediglich bei zusammengesetzten Wörtern wie „Hundertzwanzigtausend-Euro-Geländewagen“ gibt es kleinere Inkonsistenzen.

Gelegentlich treten semantische Fehler auf – zum Beispiel wurde aus „zierlichen Füßen“ „erzieherliche Füße“. Auch einige Tippfehler („ummeinen Hals“) sind zu finden, lassen sich aber schnell korrigieren.

Positiv fällt auf, dass ElevenLabs kaum Sätze verschluckt oder neu zusammensetzt. Das macht die Nachbearbeitung planbarer und spart Zeit, wenn aus dem Transkript ein fertiges Manuskript entstehen soll.

3.2 Sonix.ai

Sonix.ai Dashboard

Sonix.ai ist die KI-Transkriptionssoftware, die am besten im Test abgeschnitten hat. Sie überzeugt durch eine hohe Genauigkeit, ein schnelle Transkriptionsgeschwindigkeit und eine einfache Bedienung.

Sonix.ai unterstützt die Transkription in über 38 Sprachen, darunter auch Deutsch. Wer skeptisch ist, kann das Ganze mit einer kostenlosen Testversion ausprobieren.

Das Design ist klar und benutzerfreundlich. Einziger Minuspunkt ist hier, dass die Benutzeroberfläche nicht auf Deutsch, sondern leider nur auf Englisch verfügbar ist:

Sonix.ai Benutzeroberfläche

Der interaktive Editor lässt ebenfalls keine Wünsche übrig. Wir haben uns zügig zurechtgefunden und konnten einwandfrei damit arbeiten. Und für alle, die ein Google-Konto besitzen: Die Anmeldung bei Sonix.ai geht blitzschnell.

Ein weiterer Pluspunkt:

Sonix.ai bietet dir direkt nach dem Dateiupload eine Übersicht über die erwartete Qualität des Transkripts:

Sonix Transcript Quality Indicator

Aber es gibt auch ein paar Einschränkungen:

  1. Es gibt eine Obergrenze für Dateiuploads bei 4 GB.
  2. Sonix bietet nur automatische Transkriptionen, du kannst deine Transkriptionen also nicht direkt von Freelancern erstellen oder korrigieren lassen, falls die Qualität mal nicht passt (das hat allerdings nicht zu Punktabzügen im Test geführt).

Die Transkription von Sebastian Fitzek's „Elternabend“ erreichte eine Zeichengenauigkeit von 94,43 % und eine Wortgenauigkeit von 83,44 %.

Sonix.ai Transkription (94,43% Genauigkeit)
HinzugefügtEntferntGeändert
Lassen Sie mich diese Geschichte an der Stelle beginnen, an der sie hätte enden sollen. Um 16:44,(16.44 Uhr) an einem extrem heißen Sommertag, in einer kleinen Einbahnstraße in der Heerstraßensiedlung im Südwesten Berlins.

Ich saß hinter dem Lenkrad eines 120.000 €(Hundertzwanzigtausend-Euro-)Geländewagens von der albernen Sorte, die in echtem Gelände etwa so offroad-tauglich ist wie ein Liegefahrrad im Dschungel, der von einem völlig bescheuerten Kleinkriminellen aufgebrochen worden war. Ich war dabei, einen Brief zu schreiben. Auf meinem Schoß lag ein(eine in) Papier eingewickelte, langstielige blaue Hortensie, und um meinen Hals schlackert(schlackerte) ein lederner Hosengürtel.

Die Frau, die sich mir und damit dem parkenden Stadtpanzer näherte, steckte in brombeerfarbenen Yoga Shorts(Yogashorts), die so eng an lagen(anlagen), dass sie sie wohl vor einem Tannenbaum trichtergespannt(Tannenbaumtrichter gespannt) hatte und hindurch gesprungen(hindurchgesprungen) war, um in sie reinzukommen. An den eher zierlichen Füßen klebten Joggingschuhe in Neonquietschpink, ein teiliertes(Ein tailliertes), aus schweißabsorbierendem Slim Fit(Slimfit-)Stoff gedrechselten(gedrechseltes) Oberteil mit dem Aufdruck "Save our Planet"(„Save our Planet“) komplettierte ihr Sportoutfit.

Sonix.ai hat deutlich weniger Probleme mit der Zeichensetzung als andere Tools, trennt dafür aber gerne mal Wörter, die zusammengeschrieben werden und schreibt Wörter zusammen, die getrennt geschrieben werden. Das hat uns etwas verwundert, aber ist nicht weiter schlimm, da sich das leicht mit LanguageTool oder einem anderen Grammatik-Prüftool korrigieren lässt.

Wenn man sich lediglich die ersten 2⁄3 des Textes anschaut (also von den komplizierten Wortgebilden Abstand nimmt) ist hier ein sehr überzeugendes Transkript zu sehen.

3.3 Beey

Beey

Mit Beey kannst du entweder direkt Audio- oder Videodateien hochladen oder einfach Links von YouTube oder Facebook verwenden. Dank künstlicher Intelligenz liefert Beey dir flott und genau ein Transkript.

Beey Benutzeroberfläche

Pluspunkt: Es unterstützt 30 Sprachen, darunter Deutsch, Englisch und Spanisch. Mit dem integrierten Editor kannst du dein Transkript online anpassen und sogar Zeitmarkierungen hinzufügen.

Es ist zudem sehr einfach, das Transkript in Untertitel, passend zu deiner Video- oder Audiodatei, zu transformieren und alles in diversen Dateiformaten herunterzuladen.

Klingt gut? Es gibt noch mehr Vorteile: Es gibt eine kostenlose Testversion, die Transkription ist super schnell und die Benutzeroberfläche ist wirklich benutzerfreundlich.

Aber, kein Tool ist perfekt. Manuelle Transkriptionen sind hier nicht möglich und die deutsche Version der Webseite könnte ein kleines Update gebrauchen.

Unsere Testaudiodatei hat Beey wie folgt transkribiert:

Beey Transkription (92,46% Genauigkeit)
HinzugefügtEntferntGeändert
Lassen sie(Lassen Sie) mich diese Geschichte an der Stelle beginnen, an der sie hätte enden sollen. Um 16 Uhr 44(16.44 Uhr) an einem extrem heißen Sommertag in einer kleinen Einbahnstraße in der heerstraßensiedlung(Heerstraßensiedlung) im Südwesten Berlins.
Ich saß hinter dem Lenkrad eines 120.000 Euro Geländewagens von der albernen sorte(Sorte), die in echtem Gelände etwa so aufrotauglich(offroad-tauglich) ist wie ein Liegefahrrad im Dschungel, der von einem völlig beschschauten kleinkriminellen(bescheuerten Kleinkriminellen) aufgebrochen worden war. Ich war dabei, ein Brief(einen Brief) zu schreiben auf meinem schoß lag einen Papier(. Auf meinem Schoß lag eine in Papier) eingewickelte, langsielige blauehortensähe(langstielige blaue Hortensie), und um meinen Hals schlackerte ein lederner hosengürtel(Hosengürtel).
die Frau(Die Frau), die sich mir und damit dem parkenden stadtpanzer(Stadtpanzer) näherte, steckte in brombeerfarbenen yogashorts(Yogashorts), die so eng Anlagen(anlagen), dass sie sie wohl vor einem tannenbaumtrichter(Tannenbaumtrichter) gespannt hatte und hindurchgesprungen war, um in sie reinzukommen. An den erzihlichen Füßen(eher zierlichen Füßen) klebten joggingschuhe(Joggingschuhe) in Neonquietschpink ein detailliertes(Neonquietschpink. Ein tailliertes), aus Schweiß absorbierendem simfitzstoff(schweißabsorbierendem Slimfit-Stoff) gedrechseltes Oberteil mit dem Aufdruck "Save our Planet"(„Save our Planet“) komplettierte ihr sportortwind(Sportoutfit).

Die Transkription erreichte eine Zeichengenauigkeit von 92,46 % und eine Wortgenauigkeit von 78,43 %. Ein Schwachpunkt von Beey ist die Groß- und Kleinschreibung sowie die Zeichensetzung. Wir waren überrascht, dass Worte wie „Neonquietschpink“, „brombeerfarbenen Yogashorts“ und „Tannenbaumtrichter“ grundsätzlich korrekt, aber leider durch fehlende Großbuchstaben am Wortanfang dann doch falsch transkribiert wurden.

3.4 Nova A.I.

Nova AI

Automatische Video-Transkriptionen online? Nova A.I. hat genau das im Angebot.

Sobald du auf der Plattform bist, geh einfach zum „Untertitel"-Bereich. Wähle die „Auto-Untertitel"-Funktion und lass dir in wenigen Minuten automatisch Video-Transkriptionen erstellen. Wie lange es dauert, hängt natürlich von der Länge deines Videos ab. Aber in der Regel schafft es Nova, 2 Stunden Video-Ton in nur 10 Minuten in Text umzuwandeln. Vorausgesetzt, die Tondatei ist fehlerfrei.

Aber Nova kann noch mehr als nur transkribieren. Es ist auch ein einfaches, aber mächtiges Video-Bearbeitungsprogramm. Du kannst Videos direkt online auf deinem Laptop oder PC bearbeiten. Die Cloud-Speicherung sorgt dafür, dass du keine riesigen Programme runterladen musst und deine Videos sicher in der Bibliothek gespeichert sind.

Nova A.I. punktet besonders bei Inhalten für TikTok, Facebook Stories, Kurzclips, Online-Kursen und vieles mehr. Fast so, als wärest du in einem großen Produktionsstudio.

Das Tool bietet allerdings auch einige Nachteile:

Die Video-Analysefunktion muss auf Anfrage aktiviert werden, die kostenlose Version setzt Wasserzeichen und leider gibt es keine mobile Version, also benötigst du einen Computer, um deine Videos zu bearbeiten.

Ein wenig nervig ist zudem, dass Nova keine separate Transkription des Audios als Textdatei erstellt, sondern das Video direkt mit einem Untertitel versieht, was zu Punktabzügen geführt hat:

Nova AI Untertitel

Die transkribierte Version der beiden Absätze aus Sebastian Fitzeks „Elternabend" erreichte eine Zeichengenauigkeit von 94,17 % und eine Wortgenauigkeit von 85,16 %.

Die Prozentzahl erscheint auf den ersten Blick nicht sonderlich hoch. Genauer betrachtet treten jedoch nur an zwei Stellen gravierende Fehler auf, die definitiv nachbearbeitet werden müssen. Aus „Kleinkriminellen“ wurde „kleinen Kriminellen“ und aus „eher zierlichen Füßen“ die „erzieherlichen Füßen“:

Nova AI Transkription (94,17% Genauigkeit)
HinzugefügtEntferntGeändert
Lassen Sie mich diese Geschichte an der Stelle beginnen, an der sie hätte enden sollen, um 16.44 Uhr an einem extrem heißen Sommertag in einer kleinen Einbahnstraße in der Herrstraßensiedlung(Heerstraßensiedlung) im Südwesten Berlins.
Ich saß hinter dem Lenkrad eines 120.000 Euro Geländewagens von der albernen Sorte, die in echtem Gelände etwa so Offroad-tauglich(offroad-tauglich) ist wie ein Liegefahrrad im Dschungel, der von einem völlig bescheuerten kleinen Kriminellen(Kleinkriminellen) aufgebrochen worden war. Ich war dabei, einen Brief zu schreiben. Auf meinem Schoß lag eine in Papier eingewickelte, langstielige, blaue Hortensie, und um meinen Hals schlackerte ein lederner Hosengürtel.
Die Frau, die sich mir und damit dem parkenden Stadtpanzer näherte, steckte in Brombeerfarbenen Yoga-Shorts(brombeerfarbenen Yogashorts), die so eng anlagen, dass sie sich(sie sie) wohl vor einem Tannenbaumtrichter gespannt hatte und hindurchgesprungen war, um in sie reinzukommen. An den erzieherlichen(eher zierlichen) Füßen klebten Joggingschuhe in Neon-Quietsch-Pink(Neonquietschpink). Ein tailliertes, aus schweißabsorbierendem Slimfit Stoff(Slimfit-Stoff) gedrechseltes Oberteil mit dem Aufdruck "SAVE OUR PLANET"(„Save our Planet“) kompletierte(komplettierte) ihr Sportoutfit.

Ansonsten ist Nova überraschend gut und hat viele der Stolpersteine umgangen, die andere Tools mitgenommen haben.

3.5 Otter.ai

Otter.ai

Otter.ai dürfte für viele, die nach einem rein englischsprachigen Transkriptionsdienst suchen, interessant sein. Mit modernster Technologie, einschließlich künstlicher Intelligenz, verwandelt es Audio- und Videodateien in lesbaren Text.

Ideal, wenn du Meetings oder Gespräche fix in Schriftform benötigst.

Otter.ai Benutzeroberfläche

Du kannst direkt von deinem Computer Dateien hochladen oder Otter mit Plattformen wie Zoom und Microsoft Teams verbinden, um das Meeting live zu begleiten.

Dabei erkennt Otter.ai verschiedene Sprecher und formatiert den Text automatisch. Nützlich: Du kannst ein spezielles Vokabular hinzufügen, sodass auch spezifische Namen oder Begriffe korrekt erfasst werden.

In der App kannst du nach der Transkription alles nach deinen Wünschen anpassen. Dabei ermöglicht sie dir, Audio in verschiedenen Geschwindigkeiten abzuspielen oder sogar Bilder und Kommentare einzufügen.

Integration ist ein weiteres Plus von Otter.ai. Es passt nahtlos zu gängigen Kalender- und Meeting-Tools. Preislich ist es ziemlich attraktiv: 300 Minuten im Monat sind kostenlos, und für nur $8,33 bekommst du 20 Stunden Material. Übrigens, falls du ein Google-Konto hast, ist die Anmeldung ein Kinderspiel.

Allerdings gibt's auch Einschränkungen: Otter.ai ist auf Englisch ausgerichtet und nicht für alles geeignet – zum Beispiel nicht für das Transkribieren von YouTube-Videos.

3.6 Amberscript

Amberscript

Auch Amberscript stellt eine KI-Transkriptionssoftware. Der Anbieter bietet dir nicht nur automatische, sondern auch manuelle Transkriptionen, diese dann von Menschenhand und nicht durch Künstliche Intelligenz.

Lade einfach deine Audio- oder Videodateien hoch oder verlinke sie von Google Drive oder YouTube, und in kürzester Zeit hältst du ein Transkript in den Händen. Das Ganze funktioniert für 39 verschiedene Sprachen.

Amberscript Editor

Ein paar Features, die dir das Leben erleichtern werden: Der interaktive Editor ermöglicht dir das Bearbeiten und Teilen deiner Transkripte. Zeitmarken und die Umwandlung in Untertitel? Kein Problem. Und wenn du wichtige Passagen hervorheben möchtest, geht das mit dem Text-Highlighting spielend leicht.

Ein integrierter Rechtschreibprüfer sorgt außerdem dafür, dass alles korrekt ist (dieser kann sogar mit einem Klick ein- und wieder ausgeschaltet werden, falls ihr viele Wörter benutzt, die das Tool nicht kennt, da ihr in einer ganz speziellen Nische unterwegs seid).

Vorteile? Die automatische Transkription ist flott und präzise. Die Oberfläche ist benutzerfreundlich, obendrein gibt's eine gute Demoversion. Und für alle mit einem Google-Konto: Die Anmeldung ist ein Klacks.

Natürlich gibt's auch bei Amberscript ein paar kleinere Nachteile. Bei weniger idealer Audioqualität kann die automatische Transkription stellenweise ins Straucheln kommen. Preislich liegt Amberscript eher im oberen Bereich. Und manchmal sind die deutschen Übersetzungen nicht ganz auf dem Punkt:

Amberscript Transkription (90,31% Genauigkeit)
HinzugefügtEntferntGeändert
Lassen sie(Lassen Sie) mich diese Geschichte an der Stelle beginnen, an der sie hätte enden sollen, um 16 44(16.44 Uhr), an einem extrem heißen Sommertag in einer kleinen Einbahnstraße in der Heerstraße Siedlung(Heerstraßensiedlung) im Südwesten Berlins.
Ich saß hinter dem Lenkrad eines 120000 €(Hundertzwanzigtausend-Euro-)Geländewagens von der albernen Sorte, die in echten Geländer(echtem Gelände) etwa so tauglich(offroad-tauglich) ist wie ein Liegefahrrad im Junge(Dschungel), der von einem völlig bescheuerten Kleinkriminellen aufgebrochen worden war. Ich war dabei, einen Brief zu schreiben. Auf meinem Schoß lag ein Papier(eine in Papier) eingewickelte langstielige(langstielige) blaue Hortensie, und um meinen Hals schlackerte ein Leder nach Hosengürtel(lederner Hosengürtel).
Die Frau, die sich mir und da mit dem parkenden Stadt Panzer(damit dem parkenden Stadtpanzer) näherte, steckte in Brombeerefarbene Yoga, hat(brombeerfarbenen Yogashorts) die so eng Anlagen(anlagen), dass sie sich(sie sie) wohl vor einem Tannenbaum Trichter(Tannenbaumtrichter) gespannt hatte und hindurch gesprungen(hindurchgesprungen) war, um in sie reinzukommen. An den erziehlichen(eher zierlichen) Füßen klebten Joggingschuhe in nen Quatsch Pink(Neonquietschpink). Ein tailliertes, aus Schweiß absorbierenden Slimfit Stoff gedrechselte(schweißabsorbierendem Slimfit-Stoff gedrechseltes) Oberteil mit dem Aufdruck safe Planet(„Save our Planet“) komplettierte ihr Sportart fit(Sportoutfit).

Die Transkription erreichte eine Zeichengenauigkeit von 90,31 % und eine Wortgenauigkeit von 73,01 %. Amberscript macht viele Fehler bei Rechtschreibung und Zeichensetzung.

3.7 Descript

Descript

Descript bietet dir zwei Optionen: eine schnelle automatische Transkription, bei der du einfach deine Audio- oder Videodateien hochlädst und ziemlich flott ein Transkript bekommst. Wenn du aber das Maximum an Genauigkeit herausholen möchtest, dann gibt es noch die manuelle Variante.

Dabei werden deine Dateien von echten Profis bearbeitet und du erhältst innerhalb von 24 Stunden ein top Ergebnis – hat dann natürlich nichts mehr mit KI zu tun.

Descript Benutzeroberfläche

Was ziemlich cool ist:

Der interaktive Editor. Damit kannst du dein Transkript nicht nur bearbeiten, sondern auch teilen, mit Zeitstempeln versehen oder sogar in Untertitel umwandeln. Und für alle, die gerne etwas experimentieren, gibt es noch ein paar kreative Extras wie Effekte, Musik und Stimmenveränderungen.

Klingt gut? Hier noch kurz die Vor- und Nachteile im Überblick: Das Tolle an Descript ist die schnelle und treffsichere automatische Transkription und – ein Pluspunkt – es gibt eine kostenlose Testversion. Die Bedienung ist kinderleicht und die zusätzlichen Features sind wirklich nützlich.

Aber, alles hat auch seine Schattenseiten. Die manuelle Transkription ist zwar super genau, kostet aber mehr. Und wenn die Audioqualität nicht so toll ist oder viel Hintergrundgeräusch da ist, kann die automatische Transkription auch mal patzen. Außerdem muss man Descript aus dem Internet herunterladen und lokal installieren, da die Transkriptions-Funktion nicht in der Browseranwendung funktioniert.

Descript Transkription (91,47% Genauigkeit)
HinzugefügtEntferntGeändert
Lassen Sie mich diese Geschichte an der Stelle beginnen, an der Sie hätte enden sollen um(sie hätte enden sollen. Um 16.44) Uhr, an einem extrem heißen Sommertag in einer kleinen Einbahnstraße in der Heerstraßen Siedlung(Heerstraßensiedlung) im Südwesten Berlins.
Ich saß hinter dem Lenkrad eines 120(Hundertzwanzigtausend) € Geländewagens von der albernen Sorte, die in echtem Gelände etwa so Oro tauglich(offroad-tauglich) ist wie ein Liege Fahrrad(Liegefahrrad) im Dschungel, der von einem völlig bescheuerten Kleinkriminellen aufgebrochen worden war. Ich war dabei, einen Brief zu schreiben. Auf meinem Schoss(Schoß) lag eine in Papier eingewickelte, langstielige blaue Hortensie, und um meinen Hals schlackerte ein lederner Hosengürtel die Frau(. Die Frau), die sich mir und damit dem parkenden Stadt Panzer(Stadtpanzer) näherte, steckte in Brombeer farbenen Yoga Shorts(brombeerfarbenen Yogashorts), die so eng anlagen, dass sie sie wohl vor einem Tannenbaum Trichter(Tannenbaumtrichter) gespannt hatte und hindurch gesprungen(hindurchgesprungen) war, um in sie reinzukommen.
An den erziehlichen(eher zierlichen) Füßen klebten Joggingschuhe in ne(Neonquietschpink). Ein Tailliert(tailliertes) aus Schweiß absorbierenden Lymphe Stoff, gedrechselte(schweißabsorbierendem Slimfit-Stoff gedrechseltes) Oberteil mit dem Aufdruck "Save our Planet"(„Save our Planet“) komplettierte ihr Sportoutfit.

Die Transkription erreichte eine Zeichengenauigkeit von 91,47 % und eine Wortgenauigkeit von 78,40 %. Bei Descript werden ganze Worte übersprungen oder stark abgekürzt, was den Sinn des Transkripts verzerrt.

3.8 Speak

Speak AI

Speak wirbt mit einigen Funktionen, die ein Alleinstellungsmerkmal sein könnten:

Deine Audio-, Video- und Textdateien verwandeln sich in ansprechende und teilbare Inhalte. Denk an Balkendiagramme und automatische Zusammenfassungen. Und falls du Inhalte online bringen möchtest, gibt es sogar eine direkte WordPress-Anbindung, damit deine Transkriptionen SEO-optimiert sind.

Speak AI Benutzeroberfläche

Auch wenn du z. B. Stimmen anpassen möchtest, bietet Speak dir Funktionen, die so kein anderes Tool hat. Bei Speak kannst du Geschlecht und Alter der Stimmen variieren, um sie ideal an deine Story anzupassen.

Leider, leider, leider ist die Transkription aber nicht zu gebrauchen:

Speak AI Transkription (89,46% Genauigkeit)
HinzugefügtEntferntGeändert
"Lassen Sie mich diese Geschichte an der Stelle beginnen. An der sie hätte enden. Sollen. Um 16:44 Uhr. An einem extrem. Heißen Sommertag. In einer Kleinen. Einbahnstraße. In der Heerstraße. Siedlung(, an der sie hätte enden sollen. Um 16.44 Uhr an einem extrem heißen Sommertag in einer kleinen Einbahnstraße in der Heerstraßensiedlung) im Südwesten Berlins.
Ich saß hinter dem Lenkrad eines. Hundertzwanzigtausend Euro. Geländewagens. Von der albernen Sorte. Die in echtem. Gelände etwa so Offroad tauglich. Ist wie ein liegen Fahrrad im Dschungel. Der von einem völlig bescheuerten. Kleinkriminellen. Aufgebrochen( Hundertzwanzigtausend-Euro-Geländewagens von der albernen Sorte, die in echtem Gelände etwa so offroad-tauglich ist wie ein Liegefahrrad im Dschungel, der von einem völlig bescheuerten Kleinkriminellen aufgebrochen) worden war. Ich war dabei, einen Brief zu schreiben. Auf meinem Schoß lag ein in Papier eingewickelte. Langstielige blaue Hortensien. Und um meinen Hals schlackert ein. Lederner. Hosen. Gürtel.(eine in Papier eingewickelte, langstielige blaue Hortensie, und um meinen Hals schlackerte ein lederner Hosengürtel.)
Die Frau. Die sich mir und damit. Dem parkenden Stadt Panzer näherte. Steckte in. Brombeerfarben. Yoga. Shorts. Die so. Eng Anlagen. Dass sie sie wohl vor einem Tannenbaum. Trichter gespannt. Hatte und hindurch gesprungen war. Um sie reinzukommen. An den erzieherischen Füßen klebten. Joggingschuhe. In Neon, Quietsch, Pink. Ein Tailliertes aus Schweiß. Absorbierenden. Slim Fit Stoff. Gedrechselte s Oberteil mit dem Aufdruck? Save our. Planet(Die Frau, die sich mir und damit dem parkenden Stadtpanzer näherte, steckte in brombeerfarbenen Yogashorts, die so eng anlagen, dass sie sie wohl vor einen Tannenbaumtrichter gespannt hatte und hindurchgesprungen war, um in sie reinzukommen. An den eher zierlichen Füßen klebten Joggingschuhe in Neonquietschpink. Ein tailliertes, aus schweißabsorbierendem Slimfit-Stoff gedrechseltes Oberteil mit dem Aufdruck „Save our Planet“) komplettierte ihr Sport Outfit."(Sportoutfit.)

Die Transkription erreichte eine Zeichengenauigkeit von 89,46 %, aber nur eine Wortgenauigkeit von 45,51 %. Das Transkript wird im Editor von Speak mit Timestamps versehen, aber problematisch ist, dass jedes Wort mit einem Satzpunkt versehen wird. Das Transkript ist kaum lesbar und damit praktisch unbrauchbar.

4. Was muss eine gute Transkriptionsoftware bieten?

Hier sind die wichtigsten Aspekte, die Transkriptionstools bieten sollten:

  1. Hohe Genauigkeit: Dies ist das A und O. Die Software sollte in der Lage sein, Sprache zuverlässig und mit hoher Präzision in Text umzuwandeln.
  2. Unterstützung mehrerer Sprachen: Ein vielseitiges Tool sollte viele verschiedene Sprachen und Dialekte unterstützen.
  3. Schnelle Verarbeitungszeit: Niemand möchte stundenlang auf ein Transkript warten. Je schneller, desto besser.
  4. Benutzerfreundlichkeit: Eine intuitive Benutzeroberfläche, die auch für Einsteiger einfach zu nutzen ist, macht den Transkriptionsprozess reibungsloser.
  5. Interaktiver Editor: Die Möglichkeit, Transkripte nach der automatischen Erstellung zu bearbeiten und zu korrigieren, ist unerlässlich.
  6. Zeitmarkierungen (Timestamps): Sie helfen, bestimmte Teile des Audio- oder Videomaterials schnell zu lokalisieren.
  7. Unterscheidung zwischen Sprechern: Bei Gesprächen oder Diskussionen sollte die Software in der Lage sein, zwischen verschiedenen Sprechern zu unterscheiden.
  8. Integration mit anderen Plattformen: Eine nahtlose Integration mit gängigen Plattformen wie Zoom, YouTube oder Google Drive erhöht den Komfort.
  9. Datenschutz und Sicherheit: Da viele Audio- und Videodateien sensible Informationen enthalten können, ist Datenschutz ein Muss.
  10. Exportoptionen: Nutzer sollten in der Lage sein, ihre Transkripte in verschiedenen Formaten (z.B. TXT, PDF, SRT) zu exportieren.

Wenn eine Transkriptionsoftware die meisten oder alle dieser Funktionen und Merkmale aufweist, kann sie als eine gute Wahl betrachtet werden. Es hängt jedoch immer von deinen individuellen Anforderungen und dem Nutzungszweck ab, welche Features für dich am wichtigsten sind.

5. FAQ

FH

Finn Hillebrandt

KI-Experte & Blogger

Finn Hillebrandt ist der Gründer von Gradually AI, SEO- und KI-Experte. Er hilft Online-Unternehmern, ihre Prozesse und ihr Marketing mit KI zu vereinfachen und zu automatisieren. Finn teilt sein Wissen hier auf dem Blog in 50+ Fachartikeln sowie über seinen ChatGPT-Kurs und den KI Business Club.

Erfahre mehr über Finn und das Team, folge Finn bei LinkedIn, tritt seiner Facebook-Gruppe zu ChatGPT, OpenAI & KI-Tools bei oder mache es wie 17.500+ andere und abonniere seinen KI-Newsletter mit Tipps, News und Angeboten rund um KI-Tools und Online-Business. Besuche auch seinen anderen Blog, Blogmojo, auf dem es um WordPress, Bloggen und SEO geht.