Kostenlose Video-zu-Text-Transkription

Transkribieren Sie gesprochenes Audio aus Videodateien zu Text mit der Spracherkennung Ihres Browsers. Funktioniert mit MP4, WebM, MOV und mehr.

Ihre Videodatei bleibt auf Ihrem Gerät
Videodatei hier ablegen oder klicken zum Durchsuchen

MP4, WebM, MOV, OGG, AVI

Was Sprache-zu-Text aus Video tatsächlich macht

Video zu transkribieren bedeutet, die aufgenommene Audio-Wellenform in Text umzuwandeln. Eine Speech-to-Text-Engine führt drei Aufgaben gleichzeitig aus: akustische Modellierung (Klangfrequenzen auf Phoneme abbilden, die kleinsten Klangeinheiten einer Sprache), Sprachmodellierung (entscheiden, welche Phonemsequenzen wahrscheinliche Wörter bilden und welche Wortsequenzen wahrscheinliche Sätze in der gewählten Sprache bilden) und Interpunktion/Großschreibung (Kommas, Punkte einfügen und passend großschreiben). Moderne Engines verwenden neuronale Netze (akustische Modelle, trainiert auf Zehntausenden Stunden gelabelter Sprache, Sprachmodelle, trainiert auf Milliarden von Textwörtern). Das Ergebnis ist eine Transkription, die annähert, was ein Mensch aufschreiben würde, mit Qualität abhängig von Audio-Klarheit, Akzent-Übereinstimmung mit Trainingsdaten und wie viele mehrdeutige Homophone der Sprecher verwendet.

Dieses Tool verwendet die im Browser eingebaute Web Speech API (speziell die SpeechRecognition-Schnittstelle), den W3C-Standard, der die Spracherkennungs-Engine des Betriebssystems oder Browser-Herstellers offenlegt. Auf Chrome und Edge leitet die API typischerweise Audio durch Googles Cloud-Speech-to-Text-Dienst zur Verarbeitung (Audio geht raus, Transkription kommt zurück); auf Firefox und Safari läuft die Engine lokal mit etwas unterschiedlichen Qualitätseigenschaften. Die Transkription fließt zurück als Sequenz von Teilergebnissen (Aktualisierungen, während mehr Audio verarbeitet wird) und Endergebnissen (festgelegte transkribierte Segmente). Dieses Tool zeigt beide während der Transkription.

Sprachauswahl ist sehr wichtig. Eine für Englisch abgestimmte Speech-to-Text-Engine wird Französisch oder Mandarin falsch transkribieren. Das Dropdown zeigt mehr als 20 Sprachgebietsschemata (en-US, en-GB, es-ES, fr-FR, de-DE, ja-JP, zh-CN und mehr). Wählen Sie das Gebietsschema, das zum Dialekt Ihres Sprechers passt, für beste Ergebnisse. Sprachwechsel mitten im Clip (ein einzelnes Video mit mehreren Sprachen) ergibt typischerweise schlechte Ergebnisse, weil die Engine sich für die gesamte Sitzung auf ein akustisches/Sprachmodell festlegt.

Wie dieses Tool unter der Haube arbeitet

Wenn Sie ein Video ablegen, lädt der Browser es in ein HTMLVideoElement via URL.createObjectURL(), was die Datei lokal hält. Die Wiedergabe ist anfangs pausiert, damit Sie die Sprache auswählen und auf Start klicken können.

Beim Klick auf Start ruft das Tool new SpeechRecognition() (oder webkitSpeechRecognition auf Legacy-Chrome) auf, setzt recognition.continuous = true und recognition.interimResults = true, setzt die Sprache auf Ihr ausgewähltes Gebietsschema und ruft recognition.start() auf, während gleichzeitig das Video mit seinem Audio, das in die Audio-Eingangspipeline des Browsers geleitet wird, abgespielt wird. Die Erkennungs-Engine konsumiert das Audio in Blöcken und gibt result-Ereignisse aus, während sie transkribiert.

Jedes result-Ereignis trägt ein Array von nach Konfidenz geordneten Alternativen. Das Tool nimmt die Top-Alternative für jedes Endergebnis und hängt sie an die bearbeitbare Transkriptionsbox an. Zwischenergebnisse (noch in Verfeinerung) werden in hellerem Text angezeigt. Wenn das Video endet oder Sie auf Stopp klicken, finalisiert recognition.stop() die Sitzung. Export-Optionen schreiben die Transkription als Klartext (.txt) oder mit synthetischen Zeitstempeln als SRT/VTT-Untertitel, alles im Speicher gebaut und über Blob-Download angeboten.

Kurze Geschichte der Spracherkennung

Funktionsweise

  1. Video hochladen oder verlinken: Wählen Sie eine Videodatei von Ihrem Gerät oder fügen Sie eine Video-URL ein.
  2. Sprache auswählen: Wählen Sie die im Video gesprochene Sprache für die beste Transkriptions-Genauigkeit.
  3. Transkribieren: Die Audiospur wird extrahiert und vom Spracherkennungs-Modul verarbeitet, um ein Transkript zu erzeugen.
  4. Bearbeiten und exportieren: Überprüfen und korrigieren Sie das Transkript, kopieren Sie es dann oder laden Sie es als .txt- oder .srt-Untertiteldatei herunter.

Warum Video zu Text verwenden?

Das Transkribieren von Video zu Text ermöglicht Barrierefreiheit (Untertitel für Gehörlose und Schwerhörige), SEO (durchsuchbare Inhalte aus Video) und Wiederverwendung (ein Webinar in einen Blogpost oder Kursmaterial verwandeln). Manuelle Transkripte zu erstellen, dauert ungefähr 4-6 Stunden pro Stunde Video. Automatisierte Transkription mit browserbasierten Tools reduziert diese Zeit drastisch und hält Ihren Inhalt privat, das Video verlässt niemals Ihr Gerät. Transkripte sind außerdem nützlich, um Inhalte zu überfliegen, Untertitel zu erstellen, Videozusammenfassungen zu generieren und Compliance-Anforderungen für Untertitelung zu erfüllen.

Ausgabeformate

Reale Transkriptions-Workflows

Häufige Fallstricke und was sie bedeuten

Datenschutz: nuanciert

Dieses Tool ist nuancierter als andere Tools auf dieser Site, daher verdient das Datenschutzbild explizite Aufmerksamkeit. Die Videodatei selbst verlässt nie Ihr Gerät: Sie wird als lokale Blob-URL in den Browser geladen, lokal abgespielt und nie hochgeladen. So weit so gut. Aber die Web Speech API wird in verschiedenen Browsern unterschiedlich implementiert. Auf Chrome und Edge im Jahr 2026 sendet die API typischerweise dekodiertes Audio an Googles Cloud-Speech-to-Text-Dienst zur Transkriptionsverarbeitung; das Audio ist in der Übertragung verschlüsselt und wird laut Google-Richtlinie nicht für Werbung oder Training verwendet, aber es verlässt kurz Ihr Gerät. Auf Firefox und Safari läuft die Erkennung üblicherweise lokal, ohne dass Audio das Gerät verlässt, bei leicht geringerer Genauigkeit. Das Tool kann nicht steuern, welchen Weg der Browser nimmt; das ist eine Browser-Ebenen-Entscheidung.

Für nachweislich lokale Transkription bei sensiblem Inhalt zwei Optionen. Erstens, verwenden Sie Firefox oder Safari für In-Browser-lokale Erkennung (geringere Qualität, aber vollständig lokal). Zweitens, verwenden Sie ein Whisper-basiertes Desktop- oder WebGPU-Tool, das OpenAIs Open-Source-Modell lokal ausführt; whisper.cpp, MacWhisper und eine zunehmende Anzahl browserbasierter Whisper-Ports bieten ab 2026 vollständig lokale hochwertige Transkription. Für routinemäßige nicht sensible Videos (öffentliche Vorlesungen, lockerer Inhalt) ist der Chrome/Edge-Cloud-gestützte Weg dieses Tools praktisch und hochwertig.

Wann ein anderes Tool die richtige Wahl ist

Weitere häufig gestellte Fragen

Welcher Browser liefert die beste Transkription?

Chrome und Edge haben typischerweise die höchste Genauigkeit, weil sie Googles Cloud-Sprach-Engine verwenden, die auf dem größten Datensatz trainiert ist und regelmäßig aktualisiert wird. Der Kompromiss ist, dass Audio kurz Ihr Gerät verlässt. Firefox verwendet lokale Erkennung für einige Sprachen, mit etwas geringerer Genauigkeit, aber voller Lokalität. Die Safari-Implementierung hat sich bis 2025 verbessert, hatte aber historisch begrenzte Sprachabdeckung. Für Komfort und Genauigkeit bei nicht sensiblem Inhalt, Chrome. Für verifizierbare Lokalität, Firefox oder lokales Whisper.

Warum startet die Transkription manchmal neu oder hat Lücken?

Die Web Speech API begrenzt einzelne Erkennungssitzungen auf 5 bis 15 Minuten, abhängig vom Browser. Für längere Videos startet das Tool die Sitzung transparent im Hintergrund neu. Jeder Neustart führt eine kurze Lücke (unter einer Sekunde) ein, während der ein oder zwei Wörter verloren gehen können. Für lange Videos erwarten Sie eine Handvoll dieser Mikro-Lücken und überprüfen Sie die Transkription sorgfältig, um sie zu füllen oder zu korrigieren.

Kann ich SRT- oder VTT-Untertitel generieren?

Ja. Verwenden Sie das Download-Dropdown, um das .srt- oder .vtt-Format zu wählen. Das Tool generiert synthetische Zeitstempel basierend auf Wortzahl und durchschnittlicher Sprechgeschwindigkeit (etwa 150 Wörter pro Minute). Für frame-genaues Untertitel-Timing lassen Sie die SRT danach durch ein Tool wie Subtitle Edit oder Aegisub laufen, wo Sie das Per-Zeile-Timing nach Gehör anpassen können. Oder verwenden Sie ein Whisper-basiertes Tool, das präzise Zeitstempel nativ bereitstellt.

Welche Wortfehlerrate sollte ich erwarten?

Für klares Einzelsprecher-englisches Audio ohne Hintergrundgeräusche auf Chrome erwarten Sie 3 bis 8% Wortfehlerrate (also eine 1000-Wort-Transkription hat 30 bis 80 falsche oder fehlende Wörter). Für lauteres Audio oder Nicht-Muttersprachler 10 bis 25%. Für verworrene Multi-Sprecher-Konversation 25%+. Korrigieren Sie immer vor der Veröffentlichung; senden Sie nie rohe Transkriptionen als Endinhalt.

Gibt es ein Desktop- oder Kommandozeilen-Äquivalent?

Ja. OpenAI Whisper (das Open-Source-Modell und die CLI) ist der De-facto-Standard für Offline-Transkription: whisper input.mp4 --language en --output_format srt. MacWhisper, BuzzWhisper und Whisper Notes umschließen es mit freundlichen UIs. whisper.cpp bietet eine schnelle C++-Implementierung. Cloud-APIs wie Google Speech-to-Text, AWS Transcribe und Deepgram bieten pro-Minute-bezahlten Zugriff auf höherwertige Engines. Für lokale Verarbeitung mit maximaler Qualität ist Whisper die Antwort.

Kann die Engine Code-Switching (mehrere Sprachen) handhaben?

Schlecht. Die Web Speech API legt sich pro Sitzung auf ein Sprachgebietsschema fest. Wenn Ihr Sprecher Englisch und Spanisch mischt, transkribiert die Wahl von en-US das Englische korrekt und verstümmelt das Spanische (und umgekehrt). Für mehrsprachiges oder code-geswitchtes Audio handhabt Whisper large-v3 viele Sprachen in einem einzigen Durchgang und erkennt die Sprache pro Segment; das ist derzeit die beste Option für Code-Switching-Inhalte.

Verwandte Tools