Bessere Text mit ChatGPT

27-seitiges E-BOOk für 0 €

14 simple Tipps, mit denen ChatGPT dramatisch bessere Texte schreibt

In unserem E-Book zeigen wir dir, wie du mit kleineren Änderungen oder Ergänzungen in deinen Prompts mit ChatGPT deutlich bessere Texte schreibst.

Die 7 besten KI-Transkriptionssoftwares (auch kostenlos)

KI-Transkriptionssoftwares
Mit * gekennzeichnete Links sind Affiliate-Links. Kommt über solche Links ein Kauf zustande, bekommen wir mit eine Provision. Für dich entstehen dabei keine Mehrkosten.
Foto des Autors

Finn Hillebrandt

Zuletzt aktualisiert:

Hast du jemals stundenlang versucht, ein Audio- oder Videointerview in Text umzuwandeln und dabei wertvolle Zeit verloren, die du lieber für wichtigere Aufgaben genutzt hättest?

Oder hast du die Nase voll von teuren Transkriptionsdienstleistern oder -Freelancern?

Dann lies weiter!

Denn es gibt mittlerweile viele tolle KI-gestützte Transkriptionssoftwares, die dir dabei helfen können, automatisiert genaue und lesbare Texte aus deinem Audiomaterial zu erstellen.

Und das oft ohne großen Nachbearbeitungsaufwand!

In diesem Blogartikel stellen wir dir die 7 besten KI-Transkriptionssoftwares vor, von denen alle (mit Einschränkungen) kostenlos nutzbar sind.

1. Was ist eine Transkriptionssoftware?

Transkriptionssoftware sind Computerprogramme oder Apps, die darauf ausgelegt sind, gesprochene Sprache in geschriebenen Text umzuwandeln.

Sie eignen sich für die Verschriftlichung vieler verschiedener Audio- und Videoformate, z. B. Interviews, Podcast, Seminare, Workshops, Video-Tutorial oder Online-Meetings.

Im Allgemeinen lassen sich Transkriptionslösungen in drei Kategorien unterteilen:

  1. Nichtautomatisierte Transkriptionssoftwares sind meistens kostenlos oder günstig, aber dafür sehr zeitaufwändig, da du das Transkript selbst schreiben musst. Sie bieten dir jedoch nützliche Funktionen wie Zeitmarken, verlangsamte Abspielgeschwindigkeit oder Textbausteine, um dir die Arbeit zu erleichtern.
  2. Automatisierte Transkriptionssoftwares sind meistens kostenpflichtig oder haben eine begrenzte kostenlose Nutzung, aber sie sparen dir viel Zeit und Mühe, indem sie das Transkript für dich erstellen. Du musst jedoch immer das automatisch erstellte Transkript überprüfen und ggf. korrigieren, da es Fehler enthalten kann. Die Genauigkeit hängt von der Qualität der Audioaufnahme, dem Akzent oder Dialekt der Sprecher, der Stärke der Hintergrundgeräusche und dem Fachvokabular ab.
  3. Transkriptionsdienste sind eine weitere Option, bei der du deine Audioaufnahme an professionelle Transkribierende senden kannst, die das Transkript für dich anfertigen. Das ist die Option mit der höchsten Transkriptionsqualität. Dafür ist sie deutlich teurer und mit längeren Wartezeiten verbunden.

Wie gut sind heutige Transkriptionssoftwares?

Aktuelle automatisierte, also KI-basierte Transkriptionssoftwares erreichen eine Genauigkeit zwischen 80 und 95 % (je nach Input-Qualität, verwendeter Software und Sprache).

Die besten Ergebnisse erhält man (natürlich), wenn man die englische Sprache benutzt, da viele der Anbieter aus den USA oder anderen englischsprachigen Ländern kommen und der englischsprachige Markt der größte und damit wichtigste ist.

Das heißt, dass sie in der Regel ein bisschen Nachbearbeitung erfordern. KI-Transkriptionssoftwares werden jedoch immer besser und bei der derzeit rasanten Entwicklung des KI-Bereichs ist davon auszugehen, dass sie in zwei oder vielleicht drei Jahren fast fehlerfrei arbeiten, auch auf Deutsch.

2. KI-Transkription im Vergleich

PlatzSoftwareDeutsche TranskriptionsqualtätPreisKostenloser Tarif?Sprachen
1Sonix.aigut (nur kleinere Probleme bei langen Wörtern)10,00 $ / StundeJa (30 Minuten)38
2Beeygut bis mittelmäßig (Schwächen mit Interpunktion)ab 4,50 € / StundeJa (30 Minuten)30
3Nova AIgut bis sehr gut (leider manuelle Nachbearbeitung erforderlich, da das Transkript als Untertitel erstellt wird)10 $ / 150 MinJa (30 Minuten)75
4Otter.aiDeutsch wird leider nicht unterstützt8,33 $ / 20 StundenJa (300 Minuten pro Monat)nur ??
5Amberscript mittelmäßig (Schwächen in Rechtschreibung und Zeichensetzung)20 € / Stunde (im Abo günstiger) Ja (10 Minuten)39
6Descript mittelmäßig bis schlecht (gute Interpunktion, aber Wörter werden weggelassen oder komisch abgekürzt)12 $ / 10 Stunden mtl.Ja (60 Minuten pro Monat)26
7Speaksehr schlecht14 $ / StundeJa (30 Minuten)70

3. Die Testergebnisse im Detail

Für den Test der Transkriptionsqualität haben wir die ersten zwei Absätze von Sebastian Fitzeks „Elternabend“ aufgenommen.

Wir haben uns bewusst für einen eher wenig isolierten Raum entschieden und als Mikrofon lediglich das eingebaute Mikrofon eines MacBook Pro 2015 benutzt, um eine alltägliche Situation zu simulieren.

„Lassen Sie mich diese Geschichte an der Stelle beginnen, an der sie hätte enden sollen. Um 16.44 Uhr an einem extrem heißen Sommertag in einer kleinen Einbahnstraße in der Heerstraßensiedlung im Südwesten Berlins. Ich saß hinter dem Lenkrad eines Hundertzwanzigtausend-Euro-Geländewagens, von der albernen Sorte, die in echtem Gelände etwa so offroad-tauglich ist wie ein Liegefahrrad im Dschungel, der von einem völlig bescheuerten Kleinkriminellen aufgebrochen worden war. Ich war dabei, einen Brief zu schreiben. Auf meinem Schoß lag eine in Papier eingewickelte, langstielige blaue Hortensie, und um meinen Hals schlackerte ein lederner Hosengürtel. Die Frau, die sich mir und damit dem parkenden Stadtpanzer näherte, steckte in brombeerfarbenen Yogashorts, die so eng anlagen, dass sie sie wohl vor einen Tannenbaumtrichter gespannt hatte und hindurchgesprungen war, um in sie reinzukommen. An den eher zierlichen Füßen klebten Joggingschuhe in Neonquietschpink. Ein tailliertes, aus Schweiß absorbierendem Slimfit-Stoff gedrechseltes Oberteil mit dem Aufdruck „Save our Planet“ komplettierte ihr Sportoutfit.“

Sebastian Fitzek, Elternabend

3.1 Sonix.ai

Sonix.ai ist die KI-Transkriptionssoftware, die am besten im Test abgeschnitten hat. Sie überzeugt durch eine hohe Genauigkeit, ein schnelle Transkriptionsgeschwindigkeit und eine einfache Bedienung.

Sonix.ai unterstützt die Transkription in über 38 Sprachen, darunter auch Deutsch. Wer skeptisch ist, kann das Ganze mit einer kostenlosen Testversion ausprobieren.

Das Design ist klar und benutzerfreundlich. Einziger Minuspunkt ist hier, dass die Benutzeroberfläche nicht auf Deutsch, sondern leider nur auf Englisch verfügbar ist:

sonix-ai-benutzeroberflaeche

Der interaktive Editor lässt ebenfalls keine Wünsche übrig. Wir haben uns zügig zurechtgefunden und konnten einwandfrei damit arbeiten. Und für alle, die ein Google-Konto besitzen: Die Anmeldung bei Sonix.ai geht blitzschnell.

Ein weiterer Pluspunkt:

Sonix.ai bietet dir direkt nach dem Dateiupload eine Übersicht über die erwartete Qualität des Transkripts:

sonix-transcript-quality

Aber es gibt auch ein paar Einschränkungen:

  1. Es gibt eine Obergrenze für Dateiuploads bei 4 GB.
  2. Sonix bietet nur automatische Transkriptionen, du kannst deine Transkriptionen also nicht direkt von Freelancern erstellen oder korrigieren lassen, falls die Qualität mal nicht passt (das hat allerdings nicht zu Punktabzügen im Test geführt).

Die Transkription von Sebastian Fitzek’s „Elternabend“ hatte eine Ähnlichkeit von 66,64 % (Absatz-für-Absatz).

Lassen Sie mich diese Geschichte an der Stelle beginnen, an der sie hätte enden sollen. Um 16:44, an einem extrem heißen Sommertag, in einer kleinen Einbahnstraße in der Straßensiedlung im Südwesten Berlins. 

Ich saß hinter dem Lenkrad eines 120.000 € Geländewagens von der albernen Sorte, die in echtem Gelände etwa so offroad-tauglich ist wie ein Liegefahrrad im Dschungel, der von einem völlig bescheuerten Kleinkriminellen aufgebrochen worden war. Ich war dabei, einen Brief zu schreiben. Auf meinem Schoß lag ein Papier eingewickelte, langstielige blaue Hortensie, und um meinen Hals schlackert ein lederner Hosengürtel. Die Frau, die sich mir und damit dem parkenden Stadtpanzer näherte, steckte in brombeerfarbenen Yoga Shorts, die so eng an lagen, dass sie sie wohl vor einem Tannenbaum trichtergespannt hatte und hindurch gesprungen war, um in sie reinzukommen. An den eher zierlichen Füßen klebten Joggingschuhe in Neonquietschpink, ein teiliertes, aus schweißabsorbierendem Slim Fit Stoff gedrechselten Oberteil mit dem Aufdruck "Save our Planet" komplettierte ihr Sportoutfit.

Sonix.ai hat deutlich weniger Probleme mit der Zeichensetzung als andere Tools, trennt dafür aber gerne mal Wörter, die zusammengeschrieben werden und schreibt Wörter zusammen, die getrennt geschrieben werden. Das hat uns etwas verwundert, aber ist nicht weiter schlimm, da sich das leicht mit LanguageTool oder einem anderen Grammatik-Prüftool korrigieren lässt.

Wenn man sich lediglich die ersten 2⁄3 des Textes anschaut (also von den komplizierten Wortgebilden Abstand nimmt) ist hier ein sehr überzeugendes Transkript zu sehen:

3.2 Beey

Mit Beey kannst du entweder direkt Audio- oder Videodateien hochladen oder einfach Links von YouTube oder Facebook verwenden. Dank künstlicher Intelligenz liefert Beey dir flott und genau ein Transkript.

beey-benutzeroberflaeche

Pluspunkt: Es unterstützt 30 Sprachen, darunter Deutsch, Englisch und Spanisch. Mit dem integrierten Editor kannst du dein Transkript online anpassen und sogar Zeitmarkierungen hinzufügen.

Es ist zudem sehr einfach, das Transkript in Untertitel, passend zu deiner Video- oder Audiodatei, zu transformieren und alles in diversen Dateiformaten herunterzuladen.

Klingt gut? Es gibt noch mehr Vorteile: Es gibt eine kostenlose Testversion, die Transkription ist super schnell und die Benutzeroberfläche ist wirklich benutzerfreundlich.

Aber, kein Tool ist perfekt. Manuelle Transkriptionen sind hier nicht möglich und die deutsche Version der Webseite könnte ein kleines Update gebrauchen.

Unsere Testaudiodatei hat Beey wie folgt transkribiert:

Lassen sie mich diese Geschichte an der Stelle beginnen, an der sie hätte enden sollen. Um 16 Uhr 44 an einem extrem heißen Sommertag in einer kleinen Einbahnstraße in der heerstraßensiedlung im Südwesten Berlins. 

Ich saß hinter dem Lenkrad eines 120.000 Euro Geländewagens von der albernen sorte, die in echtem Gelände etwa so aufrotauglich ist wie ein Liegefahrrad im Dschungel, der von einem völlig beschschauten kleinkriminellen aufgebrochen worden war. Ich war dabei, ein Brief zu schreiben auf meinem schoß lag einen Papier eingewickelte, langsielige blauehortensähe, und um meinen Hals schlackerte ein lederner hosengürtel die Frau, die sich mir und damit dem parkenden stadtpanzer näherte, steckte in brombeerfarbenen yogashorts, die so eng Anlagen, dass sie sie wohl vor einem tannenbaumtrichter gespannt hatte und hindurchgesprungen war, um in sie reinzukommen. An den erzihlichen Füßen klebten joggingschuhe in Neonquietschpink ein detailliertes, aus Schweiß absorbierendem simfitzstoff gedrechseltes Oberteil mit dem Aufdruck "Save our Planet" komplettierte ihr sportortwind.

Die Texte haben eine Ähnlichkeit von 57,54 % (Absatz-für-Absatz). Ein Schwachpunkt von Beey ist die Groß- und Kleinschreibung sowie die Zeichensetzung. Wir waren überrascht, dass Worte wie „Neonquietschpink“, „brombeerfarbenen Yogashorts“ und „Tannenbaumtrichter“ grundsätzlich korrekt, aber leider durch fehlende Großbuchstaben am Wortanfang dann doch falsch transkribiert wurden.

3.3 Nova A.I.

nova-ai

Automatische Video-Transkriptionen online? Nova A.I. hat genau das im Angebot.

Sobald du auf der Plattform bist, geh einfach zum „Untertitel“-Bereich. Wähle die „Auto-Untertitel“-Funktion und lass dir in wenigen Minuten automatisch Video-Transkriptionen erstellen. Wie lange es dauert, hängt natürlich von der Länge deines Videos ab. Aber in der Regel schafft es Nova, 2 Stunden Video-Ton in nur 10 Minuten in Text umzuwandeln. Vorausgesetzt, die Tondatei ist fehlerfrei.

Aber Nova kann noch mehr als nur transkribieren. Es ist auch ein einfaches, aber mächtiges Video-Bearbeitungsprogramm. Du kannst Videos direkt online auf deinem Laptop oder PC bearbeiten. Die Cloud-Speicherung sorgt dafür, dass du keine riesigen Programme runterladen musst und deine Videos sicher in der Bibliothek gespeichert sind.

Nova A.I. punktet besonders bei Inhalten für TikTok, Facebook Stories, Kurzclips, Online-Kursen und vieles mehr. Fast so, als wärest du in einem großen Produktionsstudio.

Das Tool bietet allerdings auch einige Nachteile:

Die Video-Analysefunktion muss auf Anfrage aktiviert werden, die kostenlose Version setzt Wasserzeichen und leider gibt es keine mobile Version, also benötigst du einen Computer, um deine Videos zu bearbeiten.

Ein wenig nervig ist zudem, dass Nova keine separate Transkription des Audios als Textdatei erstellt, sondern das Video direkt mit einem Untertitel versieht, was zu Punktabzügen geführt hat:

nova-ai-untertitel

Dafür bot es im Test die beste Transkriptionsqualität. Die transkribierte Version der beiden Absätze aus Sebastian Fitzeks „Elternabend“ hatte eine Ähnlichkeit von 69,48 % (Absatz-für-Absatz) zum Original.

Die Prozentzahl erscheint auf den ersten Blick nicht sonderlich hoch. Genauer betrachtet treten jedoch nur an zwei Stellen gravierende Fehler auf, die definitiv nachbearbeitet werden müssen. Aus „Kleinkriminellen“ wurde „kleinen Kriminellen“ und aus „eher zierlichen Füßen“ die „erzieherlichen Füßen“:

Lassen Sie mich diese Geschichte an der Stelle beginnen, an der sie hätte enden sollen, um 16.44 Uhr an einem extrem heißen Sommertag in einer kleinen Einbahnstraße in der Herrstraßensiedlung im Südwesten Berlins. 

Ich saß hinter dem Lenkrad eines 120.000 Euro Geländewagens von der albernen Sorte, die in echtem Gelände etwa so Offroad-tauglich ist wie ein Liegefahrrad im Dschungel, der von einem völlig bescheuerten kleinen Kriminellen aufgebrochen worden war. Ich war dabei, einen Brief zu schreiben. Auf meinem Schoß lag eine in Papier eingewickelte, langstielige, blaue Hortensie, und um meinen Hals schlackerte ein lederner Hosengürtel. Die Frau, die sich mir und damit dem parkenden Stadtpanzer näherte, steckte in Brombeerfarbenen Yoga-Shorts, die so eng anlagen, dass sie sich wohl vor einem Tannenbaumtrichter gespannt hatte und hindurchgesprungen war, um in sie reinzukommen. An den erzieherlichen Füßen klebten Joggingschuhe in Neon-Quietsch-Pink. Ein tailliertes, aus schweißabsorbierendem Slimfit Stoff gedrechseltes Oberteil mit dem Aufdruck "SAVE OUR PLANET" kompletierte ihr Sportoutfit.

Ansonsten ist Nova überraschend gut und hat viele der Stolpersteine umgangen, die andere Tools mitgenommen haben.

3.4 Otter.ai

Otter.ai dürfte für viele, die nach einem rein englischsprachigen Transkriptionsdienst suchen, interessant sein. Mit modernster Technologie, einschließlich künstlicher Intelligenz, verwandelt es Audio- und Videodateien in lesbaren Text.

Ideal, wenn du Meetings oder Gespräche fix in Schriftform benötigst.

otter-ai-benutzeroberflaeche

Du kannst direkt von deinem Computer Dateien hochladen oder Otter mit Plattformen wie Zoom und Microsoft Teams verbinden, um das Meeting live zu begleiten.
Dabei erkennt Otter.ai verschiedene Sprecher und formatiert den Text automatisch. Nützlich: Du kannst ein spezielles Vokabular hinzufügen, sodass auch spezifische Namen oder Begriffe korrekt erfasst werden.

In der App kannst du nach der Transkription alles nach deinen Wünschen anpassen. Dabei ermöglicht sie dir, Audio in verschiedenen Geschwindigkeiten abzuspielen oder sogar Bilder und Kommentare einzufügen.

Integration ist ein weiteres Plus von Otter.ai. Es passt nahtlos zu gängigen Kalender- und Meeting-Tools. Preislich ist es ziemlich attraktiv: 300 Minuten im Monat sind kostenlos, und für nur $8,33 bekommst du 20 Stunden Material. Übrigens, falls du ein Google-Konto hast, ist die Anmeldung ein Kinderspiel.

Allerdings gibt’s auch Einschränkungen: Otter.ai ist auf Englisch ausgerichtet und nicht für alles geeignet – zum Beispiel nicht für das Transkribieren von YouTube-Videos.

3.5 Amberscript

Auch Amberscript stellt eine KI-Transkriptionssoftware. Der Anbieter bietet dir nicht nur automatische, sondern auch manuelle Transkriptionen, diese dann von Menschenhand und nicht durch Künstliche Intelligenz.

Lade einfach deine Audio- oder Videodateien hoch oder verlinke sie von Google Drive oder YouTube, und in kürzester Zeit hältst du ein Transkript in den Händen. Das Ganze funktioniert für 39 verschiedene Sprachen.

amberscript-editor

Ein paar Features, die dir das Leben erleichtern werden: Der interaktive Editor ermöglicht dir das Bearbeiten und Teilen deiner Transkripte. Zeitmarken und die Umwandlung in Untertitel? Kein Problem. Und wenn du wichtige Passagen hervorheben möchtest, geht das mit dem Text-Highlighting spielend leicht.

Ein integrierter Rechtschreibprüfer sorgt außerdem dafür, dass alles korrekt ist (dieser kann sogar mit einem Klick ein- und wieder ausgeschaltet werden, falls ihr viele Wörter benutzt, die das Tool nicht kennt, da ihr in einer ganz speziellen Nische unterwegs seid).

Vorteile? Die automatische Transkription ist flott und präzise. Die Oberfläche ist benutzerfreundlich, obendrein gibt’s eine gute Demoversion. Und für alle mit einem Google-Konto: Die Anmeldung ist ein Klacks.

Natürlich gibt’s auch bei Amberscript ein paar kleinere Nachteile. Bei weniger idealer Audioqualität kann die automatische Transkription stellenweise ins Straucheln kommen. Preislich liegt Amberscript eher im oberen Bereich. Und manchmal sind die deutschen Übersetzungen nicht ganz auf dem Punkt:

Lassen sie mich diese Geschichte an der Stelle beginnen, an der sie hätte enden sollen, um 16 44, an einem extrem heißen Sommertag in einer kleinen Einbahnstraße in der Heerstraße Siedlung im Südwesten Berlins. 

Ich saß hinter dem Lenkrad eines 120000 € Geländewagens von der albernen Sorte, die in echten Geländer etwa so tauglich ist wie ein Liegefahrrad im Junge, der von einem völlig bescheuerten Kleinkriminellen aufgebrochen worden war. Ich war dabei, einen Brief zu schreiben. Auf meinem Schoß lag ein Papier eingewickelte langstielige blaue Hortensie, und um meinen Hals schlackerte ein Leder nach Hosengürtel. Die Frau, die sich mir und da mit dem parkenden Stadt Panzer näherte, steckte in Brombeerefarbene Yoga, hat die so eng Anlagen, dass sie sich wohl vor einem Tannenbaum Trichter gespannt hatte und hindurch gesprungen war, um in sie reinzukommen. An den erziehlichen Füßen klebten Joggingschuhe in nen Quatsch Pink. Ein tailliertes, aus Schweiß absorbierenden Slimfit Stoff gedrechselte Oberteil mit dem Aufdruck safe Planet komplettierte ihr Sportart fit.

Die Texte haben eine Ähnlichkeit von 55,75 % (Absatz-für-Absatz). Amberscript macht die gleichen Fehler wie andere Tools, sticht aber in keinem Aspekt positiv oder negativ hervor. Wahres Mittelmaß.

3.6 Descript

Descript bietet dir zwei Optionen: eine schnelle automatische Transkription, bei der du einfach deine Audio- oder Videodateien hochlädst und ziemlich flott ein Transkript bekommst. Wenn du aber das Maximum an Genauigkeit herausholen möchtest, dann gibt es noch die manuelle Variante.

Dabei werden deine Dateien von echten Profis bearbeitet und du erhältst innerhalb von 24 Stunden ein top Ergebnis – hat dann natürlich nichts mehr mit KI zu tun.

descript-benutzeroberfläche

Was ziemlich cool ist:

Der interaktive Editor. Damit kannst du dein Transkript nicht nur bearbeiten, sondern auch teilen, mit Zeitstempeln versehen oder sogar in Untertitel umwandeln. Und für alle, die gerne etwas experimentieren, gibt es noch ein paar kreative Extras wie Effekte, Musik und Stimmenveränderungen.

Klingt gut? Hier noch kurz die Vor- und Nachteile im Überblick: Das Tolle an Descript ist die schnelle und treffsichere automatische Transkription und – ein Pluspunkt – es gibt eine kostenlose Testversion. Die Bedienung ist kinderleicht und die zusätzlichen Features sind wirklich nützlich.

Aber, alles hat auch seine Schattenseiten. Die manuelle Transkription ist zwar super genau, kostet aber mehr. Und wenn die Audioqualität nicht so toll ist oder viel Hintergrundgeräusch da ist, kann die automatische Transkription auch mal patzen. Außerdem muss man Descript aus dem Internet herunterladen und lokal installieren, da die Transkriptions-Funktion nicht in der Browseranwendung funktioniert.

Lassen Sie mich diese Geschichte an der Stelle beginnen, an der Sie hätte enden sollen um Uhr, an einem extrem heißen Sommertag in einer kleinen Einbahnstraße in der Heerstraßen Siedlung im Südwesten Berlins. 

Ich saß hinter dem Lenkrad eines 120 € Geländewagens von der albernen Sorte, die in echtem Gelände etwa so Oro tauglich ist wie ein Liege Fahrrad im Dschungel, der von einem völlig bescheuerten Kleinkriminellen aufgebrochen worden war. Ich war dabei, einen Brief zu schreiben. Auf meinem Schoss lag eine in Papier eingewickelte, langstielige blaue Hortensie, und um meinen Hals schlackerte ein lederner Hosengürtel die Frau, die sich mir und damit dem parkenden Stadt Panzer näherte, steckte in Brombeer farbenen Yoga Shorts, die so eng anlagen, dass sie sie wohl vor einem Tannenbaum Trichter gespannt hatte und hindurch gesprungen war, um in sie reinzukommen. An den erziehlichen Füßen klebten Joggingschuhe in ne. Ein Tailliert aus Schweiß absorbierenden Lymphe Stoff, gedrechselte Oberteil mit dem Aufdruck "Save our Planet" komplettierte ihr Sportoutfit.

Die Texte haben eine Ähnlichkeit von 60,77 % (Absatz-für-Absatz). Auch wenn die prozentuale Ähnlichkeit hier höher, als z. B. bei Beey ist, sind die Schwächen in unseren Augen deutlich schwerwiegender als die fehlende Zeichensetzung. Bei Descript werden ganze Worte übersprungen oder komisch abgekürzt und verzerren damit den Sinn des Transkripts.

3.7 Speak

speak-ai

Speak wirbt mit einigen Funktionen, die ein Alleinstellungsmerkmal sein könnten:

Deine Audio-, Video- und Textdateien verwandeln sich in ansprechende und teilbare Inhalte. Denk an Balkendiagramme und automatische Zusammenfassungen. Und falls du Inhalte online bringen möchtest, gibt es sogar eine direkte WordPress-Anbindung, damit deine Transkriptionen SEO-optimiert sind.

speak-ai-benutzeroberfläche

Auch wenn du z. B. Stimmen anpassen möchtest, bietet Speak dir Funktionen, die so kein anderes Tool hat. Bei Speak kannst du Geschlecht und Alter der Stimmen variieren, um sie ideal an deine Story anzupassen.

Leider, leider, leider ist die Transkription aber nicht zu gebrauchen:

"Lassen Sie mich diese Geschichte an der Stelle beginnen. An der sie hätte enden. Sollen. Um 16:44 Uhr. An einem extrem. Heißen Sommertag. In einer Kleinen. Einbahnstraße. In der Heerstraße. Siedlung im Südwesten Berlins. 

Ich saß hinter dem Lenkrad eines. Hundertzwanzigtausend Euro. Geländewagens. Von der albernen Sorte. Die in echtem. Gelände etwa so Offroad tauglich. Ist wie ein liegen Fahrrad im Dschungel. Der von einem völlig bescheuerten. Kleinkriminellen. Aufgebrochen worden war. Ich war dabei, einen Brief zu schreiben. Auf meinem Schoß lag ein in Papier eingewickelte. Langstielige blaue Hortensien. Und um meinen Hals schlackert ein. Lederner. Hosen. Gürtel. Die Frau. Die sich mir und damit. Dem parkenden Stadt Panzer näherte. Steckte in. Brombeerfarben. Yoga. Shorts. Die so. Eng Anlagen. Dass sie sie wohl vor einem Tannenbaum. Trichter gespannt. Hatte und hindurch gesprungen war. Um sie reinzukommen. An den erzieherischen Füßen klebten. Joggingschuhe. In Neon, Quietsch, Pink. Ein Tailliertes aus Schweiß. Absorbierenden. Slim Fit Stoff. Gedrechselte s Oberteil mit dem Aufdruck? Save our. Planet komplettierte ihr Sport Outfit."

Die Texte haben eine Ähnlichkeit von 28,40 % (Absatz-für-Absatz). Das Transkript wird im Editor von Speak mit Timestamps versehen und so sehr übersichtlich zugeordnet. Problematisch wird es allerdings dann, wenn jedes Wort, dass einer Timestamp zugeordnet wird, mit einem Satzpunkt versehen wird. Das Transkript ist kaum lesbar und erfordert einiges an manueller Nachbearbeitung und ist damit ungenügend.

4. Was muss eine gute Transkriptionsoftware bieten?

Hier sind die wichtigsten Aspekte, die Transkriptionstools bieten sollten:

  1. Hohe Genauigkeit: Dies ist das A und O. Die Software sollte in der Lage sein, Sprache zuverlässig und mit hoher Präzision in Text umzuwandeln.
  2. Unterstützung mehrerer Sprachen: Ein vielseitiges Tool sollte viele verschiedene Sprachen und Dialekte unterstützen.
  3. Schnelle Verarbeitungszeit: Niemand möchte stundenlang auf ein Transkript warten. Je schneller, desto besser.
  4. Benutzerfreundlichkeit: Eine intuitive Benutzeroberfläche, die auch für Einsteiger einfach zu nutzen ist, macht den Transkriptionsprozess reibungsloser.
  5. Interaktiver Editor: Die Möglichkeit, Transkripte nach der automatischen Erstellung zu bearbeiten und zu korrigieren, ist unerlässlich.
  6. Zeitmarkierungen (Timestamps): Sie helfen, bestimmte Teile des Audio- oder Videomaterials schnell zu lokalisieren.
  7. Unterscheidung zwischen Sprechern: Bei Gesprächen oder Diskussionen sollte die Software in der Lage sein, zwischen verschiedenen Sprechern zu unterscheiden.
  8. Integration mit anderen Plattformen: Eine nahtlose Integration mit gängigen Plattformen wie Zoom, YouTube oder Google Drive erhöht den Komfort.
  9. Datenschutz und Sicherheit: Da viele Audio- und Videodateien sensible Informationen enthalten können, ist Datenschutz ein Muss.
  10. Exportoptionen: Nutzer sollten in der Lage sein, ihre Transkripte in verschiedenen Formaten (z.B. TXT, PDF, SRT) zu exportieren.

Wenn eine Transkriptionsoftware die meisten oder alle dieser Funktionen und Merkmale aufweist, kann sie als eine gute Wahl betrachtet werden. Es hängt jedoch immer von deinen individuellen Anforderungen und dem Nutzungszweck ab, welche Features für dich am wichtigsten sind.

5. FAQ

Hier habe ich dir Antworten auf häufige Fragen rund um KI-Transkriptionssoftware zusammengestellt:

KI-basierte Transkriptionssoftware bietet vier Vorteile gegenüber manueller Transkription:

  • Zeitersparnis: KI-basierte Transkription ist deutlich schneller als manuell Transkription.
  • Kosteneffizienz: Automatische Transkription ist deutlich günstiger als menschliche.
  • Automatisierung: Transkriptionssoftwares erlauben oft die automatische Transkription großer Mengen an Audio- oder Videomaterial auf einmal.
  • Flexibilität: Die Softwares können verschiedene Sprachen, Dialekte und Akzente erkennen und verarbeiten.

Dafür entsteht allerdings auch Nachbearbeitungsaufwand, den man nicht unterschätzen sollte.

Die Genauigkeit von KI-basierter Transkriptionssoftware variiert je nach Qualität der Aufnahme, Sprecherklarheit und Hintergrundgeräuschen.

Fortschrittliche KI-Transkriptionsoftwares können bei guter Audioqualität Genauigkeitsraten von über 90 % erreichen.

Ja, viele KI-basierte Transkriptionssysteme können mehrere Sprecher in einer Aufnahme erkennen und unterscheiden.

Diese Systeme nutzen Techniken wie Speaker diarisation, um den Wechsel zwischen verschiedenen Sprechern in einer Audiodatei zu erkennen und die Transkription entsprechend zu kennzeichnen.

KI-Transkriptionssoftware ist in der Regel empfindlicher gegenüber schlechter Audioqualität als menschliche Transkriptionisten.

Hintergrundgeräusche, schlechte Aufnahmequalität oder undeutliche Aussprache können die Genauigkeit der Transkription beeinträchtigen. In solchen Fällen kann eine manuelle Überprüfung oder Bearbeitung der automatischen Transkription erforderlich sein.

Die meisten KI-Transkriptionssysteme unterstützen gängige Audio- und Videoformate wie:

  • MP3
  • WAV
  • MP4
  • OGG
  • MOV
  • WMA

Einige Anbieter erlauben auch, weniger gängige Formate zu verarbeiten.

Finn Hillebrandt

Über den Autor

Finn Hillebrandt ist der Gründer von Gradually AI (ehemals Blogmojo) und Blogmojo.ai, SEO-Experte mit 14+ Jahren Erfahrung und KI-Nerd.

Er hilft Online-Unternehmern, mehr Kunden über Google zu bekommen und ihre Prozesse mit KI-Tools zu vereinfachen und zu automatisieren.

Finn teilt sein Wissen hier auf dem Blog in 170+ Fachartikeln zu KI-Tools, WordPress und SEO sowie über seinen ChatGPT-Kurs und den SEO-Kurs New Level SEO mit zusammengenommen 600+ Teilnehmern.

Erfahre mehr über Finn und das Team, folge Finn bei Instagram und bei Threads, tritt seiner Facebook-Gruppe zu ChatGPT, OpenAI & KI-Tools bei oder mache es wie 17.500+ andere und abonniere seinen KI-Newsletter mit Tipps, News und Angeboten rund um KI-Tools und Online-Business.

Bessere Texte mit ChatGPT

14 simple Tipps, mit denen ChatGPT dramatisch bessere Texte schreibt

ChatGPTs Schreibstil ist von Haus aus eher mittelmäßig. Texte enthalten z. B. Wiederholungen oder klingen monoton.

In unserem E-Book zeigen wir dir, wie es mit nur kleinen Änderungen deutlich bessere Texte schreibt. 💪

👉 Ja, zeig mir das E-Book!