Kostenlose Video-zu-Text-Transkription
Transkribieren Sie gesprochenes Audio aus Videodateien zu Text mit der Spracherkennung Ihres Browsers. Funktioniert mit MP4, WebM, MOV und mehr.
MP4, WebM, MOV, OGG, AVI
Hinweis: Die Qualität der Spracherkennung hängt von Ihrem Browser und der Audio-Klarheit ab. Chrome und Edge liefern typischerweise die besten Ergebnisse. Die Web Speech API kann Audiodaten zur Verarbeitung an den Browser-Hersteller senden.
Was Sprache-zu-Text aus Video tatsächlich macht
Video zu transkribieren bedeutet, die aufgenommene Audio-Wellenform in Text umzuwandeln. Eine Speech-to-Text-Engine führt drei Aufgaben gleichzeitig aus: akustische Modellierung (Klangfrequenzen auf Phoneme abbilden, die kleinsten Klangeinheiten einer Sprache), Sprachmodellierung (entscheiden, welche Phonemsequenzen wahrscheinliche Wörter bilden und welche Wortsequenzen wahrscheinliche Sätze in der gewählten Sprache bilden) und Interpunktion/Großschreibung (Kommas, Punkte einfügen und passend großschreiben). Moderne Engines verwenden neuronale Netze (akustische Modelle, trainiert auf Zehntausenden Stunden gelabelter Sprache, Sprachmodelle, trainiert auf Milliarden von Textwörtern). Das Ergebnis ist eine Transkription, die annähert, was ein Mensch aufschreiben würde, mit Qualität abhängig von Audio-Klarheit, Akzent-Übereinstimmung mit Trainingsdaten und wie viele mehrdeutige Homophone der Sprecher verwendet.
Dieses Tool verwendet die im Browser eingebaute Web Speech API (speziell die SpeechRecognition-Schnittstelle), den W3C-Standard, der die Spracherkennungs-Engine des Betriebssystems oder Browser-Herstellers offenlegt. Auf Chrome und Edge leitet die API typischerweise Audio durch Googles Cloud-Speech-to-Text-Dienst zur Verarbeitung (Audio geht raus, Transkription kommt zurück); auf Firefox und Safari läuft die Engine lokal mit etwas unterschiedlichen Qualitätseigenschaften. Die Transkription fließt zurück als Sequenz von Teilergebnissen (Aktualisierungen, während mehr Audio verarbeitet wird) und Endergebnissen (festgelegte transkribierte Segmente). Dieses Tool zeigt beide während der Transkription.
Sprachauswahl ist sehr wichtig. Eine für Englisch abgestimmte Speech-to-Text-Engine wird Französisch oder Mandarin falsch transkribieren. Das Dropdown zeigt mehr als 20 Sprachgebietsschemata (en-US, en-GB, es-ES, fr-FR, de-DE, ja-JP, zh-CN und mehr). Wählen Sie das Gebietsschema, das zum Dialekt Ihres Sprechers passt, für beste Ergebnisse. Sprachwechsel mitten im Clip (ein einzelnes Video mit mehreren Sprachen) ergibt typischerweise schlechte Ergebnisse, weil die Engine sich für die gesamte Sitzung auf ein akustisches/Sprachmodell festlegt.
Wie dieses Tool unter der Haube arbeitet
Wenn Sie ein Video ablegen, lädt der Browser es in ein HTMLVideoElement via URL.createObjectURL(), was die Datei lokal hält. Die Wiedergabe ist anfangs pausiert, damit Sie die Sprache auswählen und auf Start klicken können.
Beim Klick auf Start ruft das Tool new SpeechRecognition() (oder webkitSpeechRecognition auf Legacy-Chrome) auf, setzt recognition.continuous = true und recognition.interimResults = true, setzt die Sprache auf Ihr ausgewähltes Gebietsschema und ruft recognition.start() auf, während gleichzeitig das Video mit seinem Audio, das in die Audio-Eingangspipeline des Browsers geleitet wird, abgespielt wird. Die Erkennungs-Engine konsumiert das Audio in Blöcken und gibt result-Ereignisse aus, während sie transkribiert.
Jedes result-Ereignis trägt ein Array von nach Konfidenz geordneten Alternativen. Das Tool nimmt die Top-Alternative für jedes Endergebnis und hängt sie an die bearbeitbare Transkriptionsbox an. Zwischenergebnisse (noch in Verfeinerung) werden in hellerem Text angezeigt. Wenn das Video endet oder Sie auf Stopp klicken, finalisiert recognition.stop() die Sitzung. Export-Optionen schreiben die Transkription als Klartext (.txt) oder mit synthetischen Zeitstempeln als SRT/VTT-Untertitel, alles im Speicher gebaut und über Blob-Download angeboten.
Kurze Geschichte der Spracherkennung
- Audrey, 1952.Bell Labs baut Audrey, das erste automatische Spracherkennungssystem, in der Lage, einzelne Ziffern zu erkennen, die von einem einzelnen trainierten Sprecher gesprochen wurden. Das «Vokabular» war 0 bis 9; die Genauigkeit verschlechterte sich stark mit anderen Sprechern.
- DRAGON-Diktat, 1990er Jahre.Dragon Systems veröffentlicht Dragon Dictate für Verbraucher (1990) und Dragon NaturallySpeaking (1997), die kontinuierliches Diktieren mit rund 80 bis 95% Genauigkeit nach Training auf der Stimme des Benutzers ermöglichen. Beschränkt auf einzelne Sprecher und ruhige Umgebungen.
- Google Voice Search, 2008.Google startet Sprachsuche auf dem iPhone, dann überall. Cloud-basierte Erkennung, trainiert auf Milliarden von Sprach-Abfragen, macht sprecherunabhängige Erkennung ohne Benutzer-individuelles Training praktikabel. Die Ära von «OK Google» und «Hey Siri» beginnt.
- Deep-Learning-Revolution, 2012.Hinton et al. veröffentlichen bahnbrechende Papiere, die zeigen, dass tiefe neuronale Netze die traditionellen Hidden-Markov-Modell-Ansätze für akustische Modellierung dramatisch übertreffen. Wortfehlerraten fallen innerhalb weniger Jahre von 25 bis 30% auf unter 10%.
- Web Speech API ratifiziert, 2014 bis 2025.Das W3C veröffentlicht die Web-Speech-API-Spezifikation und legt die Spracherkennung des Browser-Herstellers JavaScript offen. Chrome liefert die API zuerst, gefolgt von Edge, Safari und Firefox. Implementierungen variieren in Qualität und Datenschutz-Haltung (Cloud vs. lokale Verarbeitung).
- Whisper und Open-Source-ASR, 2022 bis 2026.OpenAI veröffentlicht Whisper (2022), ein Open-Source-1,5-Milliarden-Parameter-Modell für automatische Spracherkennung, trainiert auf 680.000 Stunden mehrsprachiger Daten. WebGPU bringt Whisper 2024 bis 2026 mit whisper.cpp-WASM-Ports in den Browser und bietet vollständig lokale hochwertige Transkription ohne Cloud-Aufrufe.
Funktionsweise
- Video hochladen oder verlinken: Wählen Sie eine Videodatei von Ihrem Gerät oder fügen Sie eine Video-URL ein.
- Sprache auswählen: Wählen Sie die im Video gesprochene Sprache für die beste Transkriptions-Genauigkeit.
- Transkribieren: Die Audiospur wird extrahiert und vom Spracherkennungs-Modul verarbeitet, um ein Transkript zu erzeugen.
- Bearbeiten und exportieren: Überprüfen und korrigieren Sie das Transkript, kopieren Sie es dann oder laden Sie es als .txt- oder .srt-Untertiteldatei herunter.
Warum Video zu Text verwenden?
Das Transkribieren von Video zu Text ermöglicht Barrierefreiheit (Untertitel für Gehörlose und Schwerhörige), SEO (durchsuchbare Inhalte aus Video) und Wiederverwendung (ein Webinar in einen Blogpost oder Kursmaterial verwandeln). Manuelle Transkripte zu erstellen, dauert ungefähr 4-6 Stunden pro Stunde Video. Automatisierte Transkription mit browserbasierten Tools reduziert diese Zeit drastisch und hält Ihren Inhalt privat, das Video verlässt niemals Ihr Gerät. Transkripte sind außerdem nützlich, um Inhalte zu überfliegen, Untertitel zu erstellen, Videozusammenfassungen zu generieren und Compliance-Anforderungen für Untertitelung zu erfüllen.
Ausgabeformate
- Reiner Text (.txt): sauberes Transkript für Dokumente und Blogposts
- SRT-Untertitel (.srt): zeitgestempelte Untertiteldatei für Videoplayer
- VTT-Untertitel (.vtt): WebVTT-Format für HTML5-Video-Tracks
- Datenschutz zuerst: die gesamte Verarbeitung bleibt auf Ihrem Gerät
Reale Transkriptions-Workflows
- Untertitel für Barrierefreiheit.Untertitel zu Social-Media-Video, Schulungsmaterial oder Webinar-Aufzeichnungen hinzuzufügen unterstützt gehörlose und schwerhörige Zuschauer und erfüllt ADA/WCAG-Compliance-Anforderungen für öffentlich zugängliche Inhalte. Exportieren Sie die Transkription als SRT oder VTT, dann laden Sie sie zusammen mit der Videodatei zu den meisten modernen Playern hoch (YouTube, Vimeo, sogar benutzerdefinierte HTML5-Player).
- Video in Blog-Beiträge umfunktionieren.Ein 30-minütiges Interview, Podcast oder Webinar transkribiert gibt Ihnen 3.000 bis 5.000 Wörter Ausgangsmaterial. Leicht bearbeiten, Überschriften und eine These hinzufügen, und Sie haben einen Blog-Beitrag oder LinkedIn-Artikel. Die Transkription hilft auch SEO, weil Suchmaschinen den Textinhalt indexieren können, der sonst im Video gesperrt ist.
- Durchsuchbare Archive.Aufgezeichnete Meetings, Vorlesungen oder Schulungssitzungen werden durchsuchbar, wenn sie transkribiert werden. Sie können «den Teil, in dem wir über Preise gesprochen haben» in Sekunden finden, anstatt durch stundenlanges Video zu scrubben. Speichern Sie Transkriptionen neben Videos in einem Dokumentenordner oder einer Wissensdatenbank.
- Zitate fürs Marketing herausziehen.Kundenstimmen und Expertenvideo-Interviews können nach zitierbaren Zeilen durchsucht werden. Die Transkription bringt die genauen Worte zum Vorschein; Sie können dann eine Zitatkarte oder einen Social-Beitrag entwerfen, der für den Kontext zurück zum Video verweist. Schneller, als zur Suche eines guten Satzes erneut anzusehen.
- Sprachlernhilfe.Fremdsprachige Videos mit einer generierten Transkription anzusehen, hilft Lernenden, Wörter zu erfassen, die sie verpasst haben. Transkriptionsgenauigkeit ist nicht perfekt, aber die Wörter, die Sie korrekt hören, helfen, diejenigen zu verankern, die die Engine falsch verstanden hat. Für Studierende weniger gebräuchlicher Sprachen können Transkriptions-Exporte in Karteikarten-Tools wie Anki eingespeist werden.
- Besprechungsnotizen aus Aufzeichnungen.Aufgezeichnete Zoom-, Teams- oder persönliche Besprechungen können für Follow-up-Notizen transkribiert werden. Bearbeiten Sie die Transkription, um Action-Items, Entscheidungen und Follow-up-Verpflichtungen herauszuziehen. Einfacher als Notizen während der Besprechung zu machen und genauer, als sich danach auf das Gedächtnis zu verlassen.
Häufige Fallstricke und was sie bedeuten
- Akzent- und Dialekt-Mismatch schadet der Genauigkeit.Eine Sprach-Engine, die hauptsächlich auf US-Englisch trainiert wurde, wird bei indischem Englisch, schottischem Englisch oder Nicht-Muttersprachlern mehr Fehler produzieren. Das Locale-Dropdown lässt Sie en-GB vs. en-US wählen, aber die Abdeckung starker regionaler Akzente ist ungleichmäßig. Sprecher mit neutralen oder mit Trainingsdaten übereinstimmenden Akzenten transkribieren genauer.
- Hintergrundgeräusche verschlechtern die Qualität schnell.Café-Ambiente, Verkehr, Lüfter, Musik hinter Dialogen: Jedes davon fügt Fehler hinzu. Die Engine kann Stimmen nicht von Geräuschen trennen wie es ein konzentrierter Mensch kann. Sauberes Quell-Audio (gutes Mikrofon, minimaler Hintergrund) liefert die besten Ergebnisse. Für lautes Material erwarten Sie Wortfehlerraten von 10 bis 25%.
- Mehrere Sprecher, die übereinander reden.Die Web Speech API führt keine Sprecher-Diarisierung durch (trennen, wer was gesagt hat). Zwei-Personen-Interviews, bei denen Sprecher sich nicht überlappen, werden akzeptabel als eine fließende Transkription transkribiert. Drei-Wege-Panels oder hitzige Debatten produzieren ein Gewirr. Für genaue Multi-Sprecher-Transkriptionen verwenden Sie Whisper oder einen kostenpflichtigen Dienst wie Otter, der Diarisierung einschließt.
- Homophone werden geraten.«Mehr» vs «Meer», «Liter» vs «Litter», Eigennamen vs Allgemeinwörter: Die Engine rät aus dem Kontext. Oft rät sie gut. Manchmal wählt sie das falsche Homophon und Ihre Transkription benötigt Korrekturlesen. Überprüfen und bearbeiten Sie Transkriptionen immer vor der Veröffentlichung; versenden Sie nicht rohe Maschinenausgabe.
- Fachjargon und Eigennamen verwirren die Engines.Domain-spezifische Begriffe (medizinisch, juristisch, wissenschaftlich, Markennamen, Charakternamen) transkribieren oft schlecht, weil sie in Trainingsdaten nicht gut repräsentiert waren. Erwarten Sie, dass Sie spezielles Vokabular manuell korrigieren müssen. Suchen-und-Ersetzen ist Ihr Freund für systematische Fehltranskriptionen.
- Lange Videos stoßen an Erkennungs-Sitzungslimits.Die Web Speech API begrenzt einzelne Sitzungen auf 5 bis 15 Minuten, abhängig vom Browser. Für längere Videos startet das Tool die Erkennungssitzung regelmäßig neu (mit einer kurzen Lücke), was bei jedem Neustart ein oder zwei Wörter fallen lassen kann. Für stundenlange Videos erwarten Sie eine Handvoll Mikro-Lücken; überprüfen Sie die Transkription sorgfältig.
Datenschutz: nuanciert
Dieses Tool ist nuancierter als andere Tools auf dieser Site, daher verdient das Datenschutzbild explizite Aufmerksamkeit. Die Videodatei selbst verlässt nie Ihr Gerät: Sie wird als lokale Blob-URL in den Browser geladen, lokal abgespielt und nie hochgeladen. So weit so gut. Aber die Web Speech API wird in verschiedenen Browsern unterschiedlich implementiert. Auf Chrome und Edge im Jahr 2026 sendet die API typischerweise dekodiertes Audio an Googles Cloud-Speech-to-Text-Dienst zur Transkriptionsverarbeitung; das Audio ist in der Übertragung verschlüsselt und wird laut Google-Richtlinie nicht für Werbung oder Training verwendet, aber es verlässt kurz Ihr Gerät. Auf Firefox und Safari läuft die Erkennung üblicherweise lokal, ohne dass Audio das Gerät verlässt, bei leicht geringerer Genauigkeit. Das Tool kann nicht steuern, welchen Weg der Browser nimmt; das ist eine Browser-Ebenen-Entscheidung.
Für nachweislich lokale Transkription bei sensiblem Inhalt zwei Optionen. Erstens, verwenden Sie Firefox oder Safari für In-Browser-lokale Erkennung (geringere Qualität, aber vollständig lokal). Zweitens, verwenden Sie ein Whisper-basiertes Desktop- oder WebGPU-Tool, das OpenAIs Open-Source-Modell lokal ausführt; whisper.cpp, MacWhisper und eine zunehmende Anzahl browserbasierter Whisper-Ports bieten ab 2026 vollständig lokale hochwertige Transkription. Für routinemäßige nicht sensible Videos (öffentliche Vorlesungen, lockerer Inhalt) ist der Chrome/Edge-Cloud-gestützte Weg dieses Tools praktisch und hochwertig.
Wann ein anderes Tool die richtige Wahl ist
- Sensibler Inhalt, der vollständig lokale Verarbeitung erfordert.Wenn das Audio, das Sie transkribieren, Anwalts-Mandanten-geschütztes Material, medizinische Informationen, interne Unternehmensstrategie oder anderen Inhalt enthält, der unter keinen Umständen Ihr Gerät verlassen darf, verwenden Sie ein Whisper-basiertes lokales Tool (MacWhisper, whisper.cpp usw.) anstelle der Web Speech API in Cloud-routenden Browsern.
- Multi-Sprecher-Gespräche, die Diarisierung erfordern.Sprecherlabels («Alice:», «Bob:») erfordern Diarisierung, die die Web Speech API nicht bietet. Verwenden Sie Otter.ai, Rev, Descript oder Whisper-basierte Tools mit pyannote-Diarisierung. Die Kosten pro Minute lohnen sich für Podcasts, Interviews, Depositionen.
- Maximale Genauigkeit bei technischem Inhalt.Spezialisierte Sprach-Engines, die für medizinische, juristische oder wissenschaftliche Domänen abgestimmt sind (Nuance Dragon Medical, Lexile, Verbit), haben viel niedrigere Fehlerraten bei Jargon. Für geschäftskritische Transkription, bei der Fehler Geld kosten, schlagen kostenpflichtige spezialisierte Dienste kostenlose Allzweck-Tools.
- Sehr langformatiger Inhalt (Stunden).Für mehrstündige Transkription (vollständige Konferenzen, ganztägige Meetings, Gerichtsverfahren) ist Batch-Upload zu einem kostenpflichtigen Dienst zuverlässiger als sich auf Browser-Sitzungsgrenzen und Ad-hoc-Neustarts zu verlassen. Otter, Rev, Trint, Descript handhaben alle Stunden-oder-mehr-Inhalte ohne die Sitzungsunterbrechungen, die dieses Tool antrifft.
Weitere häufig gestellte Fragen
Welcher Browser liefert die beste Transkription?
Chrome und Edge haben typischerweise die höchste Genauigkeit, weil sie Googles Cloud-Sprach-Engine verwenden, die auf dem größten Datensatz trainiert ist und regelmäßig aktualisiert wird. Der Kompromiss ist, dass Audio kurz Ihr Gerät verlässt. Firefox verwendet lokale Erkennung für einige Sprachen, mit etwas geringerer Genauigkeit, aber voller Lokalität. Die Safari-Implementierung hat sich bis 2025 verbessert, hatte aber historisch begrenzte Sprachabdeckung. Für Komfort und Genauigkeit bei nicht sensiblem Inhalt, Chrome. Für verifizierbare Lokalität, Firefox oder lokales Whisper.
Warum startet die Transkription manchmal neu oder hat Lücken?
Die Web Speech API begrenzt einzelne Erkennungssitzungen auf 5 bis 15 Minuten, abhängig vom Browser. Für längere Videos startet das Tool die Sitzung transparent im Hintergrund neu. Jeder Neustart führt eine kurze Lücke (unter einer Sekunde) ein, während der ein oder zwei Wörter verloren gehen können. Für lange Videos erwarten Sie eine Handvoll dieser Mikro-Lücken und überprüfen Sie die Transkription sorgfältig, um sie zu füllen oder zu korrigieren.
Kann ich SRT- oder VTT-Untertitel generieren?
Ja. Verwenden Sie das Download-Dropdown, um das .srt- oder .vtt-Format zu wählen. Das Tool generiert synthetische Zeitstempel basierend auf Wortzahl und durchschnittlicher Sprechgeschwindigkeit (etwa 150 Wörter pro Minute). Für frame-genaues Untertitel-Timing lassen Sie die SRT danach durch ein Tool wie Subtitle Edit oder Aegisub laufen, wo Sie das Per-Zeile-Timing nach Gehör anpassen können. Oder verwenden Sie ein Whisper-basiertes Tool, das präzise Zeitstempel nativ bereitstellt.
Welche Wortfehlerrate sollte ich erwarten?
Für klares Einzelsprecher-englisches Audio ohne Hintergrundgeräusche auf Chrome erwarten Sie 3 bis 8% Wortfehlerrate (also eine 1000-Wort-Transkription hat 30 bis 80 falsche oder fehlende Wörter). Für lauteres Audio oder Nicht-Muttersprachler 10 bis 25%. Für verworrene Multi-Sprecher-Konversation 25%+. Korrigieren Sie immer vor der Veröffentlichung; senden Sie nie rohe Transkriptionen als Endinhalt.
Gibt es ein Desktop- oder Kommandozeilen-Äquivalent?
Ja. OpenAI Whisper (das Open-Source-Modell und die CLI) ist der De-facto-Standard für Offline-Transkription: whisper input.mp4 --language en --output_format srt. MacWhisper, BuzzWhisper und Whisper Notes umschließen es mit freundlichen UIs. whisper.cpp bietet eine schnelle C++-Implementierung. Cloud-APIs wie Google Speech-to-Text, AWS Transcribe und Deepgram bieten pro-Minute-bezahlten Zugriff auf höherwertige Engines. Für lokale Verarbeitung mit maximaler Qualität ist Whisper die Antwort.
Kann die Engine Code-Switching (mehrere Sprachen) handhaben?
Schlecht. Die Web Speech API legt sich pro Sitzung auf ein Sprachgebietsschema fest. Wenn Ihr Sprecher Englisch und Spanisch mischt, transkribiert die Wahl von en-US das Englische korrekt und verstümmelt das Spanische (und umgekehrt). Für mehrsprachiges oder code-geswitchtes Audio handhabt Whisper large-v3 viele Sprachen in einem einzigen Durchgang und erkennt die Sprache pro Segment; das ist derzeit die beste Option für Code-Switching-Inhalte.