Kostenlose Spracherkennung online

Wandeln Sie Ihre Stimme sofort in Text um. Keine Uploads, keine Anmeldung, keine Konten - einfach sprechen und transkribieren.

🔒 Privat: Die gesamte Verarbeitung erfolgt in Ihrem Browser
Wortanzahl: 0
Hinweis: Dieses Tool benötigt einen modernen Browser mit Unterstützung für Spracherkennung (Chrome, Edge, Safari, Opera). Mikrofonzugriff ist erforderlich und wird nur während Ihrer Aufnahmesitzung verwendet.

So funktioniert's

  1. Mikrofonzugriff erlaubenErteilen Sie die Berechtigung zur Nutzung Ihres Mikrofons, wenn Ihr Browser dies anfordert.
  2. Diktat startenKlicken Sie auf Aufnahme starten und sprechen Sie deutlich, um Ihre Wörter live transkribiert zu sehen.
  3. Transkript bearbeitenÜberprüfen und passen Sie den transkribierten Text direkt im bearbeitbaren Textfeld an.
  4. Kopieren oder herunterladenKopieren Sie den Text in Ihre Zwischenablage oder laden Sie ihn als TXT-Datei herunter.

Warum Spracherkennung nutzen?

Sprachdiktat ist 3- bis 4-mal schneller als Tippen und damit ein hervorragendes Produktivitätstool. Mit der in Ihrem Browser integrierten Web Speech API können Sie E-Mails, Notizen, Blogbeiträge oder Berichte diktieren, ohne Software zu installieren. Es ist auch ein großartiges Barrierefreiheits-Tool für Personen mit Tippschwierigkeiten oder solche, die Spracheingabe bevorzugen.

Funktionen

Was Browser-Spracherkennung wirklich tut

Spracherkennung (auch Automatic Speech Recognition oder ASR genannt) konvertiert gesprochenes Audio in geschriebenen Text. Moderne ASR-Systeme kombinieren ein akustisches Modell (wie Klänge zu Phonemen zuordnen), ein Sprachmodell (wie Wörter und Phrasen in echter Sprache zusammengehen) und einen Decoder, der die wahrscheinlichste Wortsequenz für das gegebene Audio findet. Die Revolution der 2010er war Deep Learning: Neuronale Netze ersetzten frühere Hidden Markov Models sowohl für akustisches als auch für Sprachmodellieren, was die Genauigkeit von etwa 80% bei sauberer Sprache auf 95%+ bei kooperativem Einzelsprecher-Audio anhob. Bis 2022 demonstrierte OpenAIs Whisper, dass ein einzelnes mehrsprachiges Modell spezialisierte Systeme über 99 Sprachen hinweg erreichen oder übertreffen konnte.

Dieses Tool verwendet die Web Speech API des Browsers, den W3C-Standard für ASR im Browser, der in Chrome 25 (2013) eingeführt und schrittweise zu Edge, Safari und den meisten Chromium-Browsern hinzugefügt wurde. Die API stellt ein SpeechRecognition-Objekt zur Verfügung, das Mikrofon-Audio an den vom Browser implementierten Sprachdienst streamt: Chrome und Edge leiten Audio an die Cloud-Sprachdienste von Google und Microsoft jeweils weiter, während Safari auf iOS 17+ und macOS Sonoma+ die Erkennung auf dem Gerät ausführt. Firefox implementiert die Web Speech API überhaupt nicht. Dieser Datenschutzunterschied ist wichtig: Das Tool selbst läuft in Ihrem Browser und sieht Ihr Audio nie, aber Chrome und Edge übertragen Audio tatsächlich zu Google/Microsoft-Servern zur Verarbeitung.

Für die meisten Benutzer ist der Kompromiss versus Tippen dramatisch. Die durchschnittliche Tippgeschwindigkeit für Büroangestellte beträgt 40 bis 60 Wörter pro Minute; durchschnittliche Sprache ist 130 bis 150 Wörter pro Minute. Sprachdiktat ist 2x bis 3x schneller, um den anfänglichen Text zu erhalten, mit der Einschränkung, dass die Bearbeitung danach normalerweise immer noch Tippen ist. Spracheingabe ist auch für Barrierefreiheit wichtig: Benutzer mit motorischen Behinderungen, Wiederholungs-Belastungsstörungen oder temporären Verletzungen können Text per Stimme produzieren, wenn Tippen unpraktisch ist. Für Sprachlerner liefert das Hören, ob das System Ihre Sprache korrekt erkannt hat, Feedback zur Aussprache. Für Besprechungsaufnahmen helfen Echtzeit-Transkripte Teilnehmern und abwesenden Kollegen gleichermaßen.

Wie dieses Tool hinter den Kulissen funktioniert

Wenn Sie auf «Aufnahme starten» klicken, erstellt die Seite ein SpeechRecognition-Objekt (oder webkitSpeechRecognition in älteren Chrome-Versionen) und ruft start() auf. Der Browser fordert die Mikrofonerlaubnis an, wenn sie nicht zuvor erteilt wurde, dann beginnt er, das erfasste Audio an den System-Sprachdienst zu streamen. Das Sprachtag, das Sie ausgewählt haben (z. B. en-US, fr-FR, zh-CN), wird an den Dienst übergeben, damit er die entsprechenden akustischen und Sprachmodelle lädt.

Der Browser liefert zwei Arten von Ergebnissen an die Seite: vorläufige Ergebnisse (partielle beste Vermutungen, 5- bis 20-mal pro Sekunde aktualisiert, wenn neues Audio eintrifft) und endgültige Ergebnisse (gesperrte Transkription einer vollständigen Äußerung, typischerweise herausgegeben, wenn der Sprecher einen Moment pausiert). Die Textarea des Tools zeigt vorläufige Ergebnisse in einem helleren Stil und sperrt endgültige Ergebnisse, sobald sie eintreffen. Der Wortzähler aktualisiert sich nur aus den endgültigen Ergebnissen, sodass er nicht flackert, wenn sich vorläufige Vermutungen ändern. Der kontinuierliche Modus (eine Checkbox-Option) startet die Erkennungssitzung automatisch neu, wenn der Browser sie nach einem langen Schweigen beendet, was bei Chrome üblich, bei Safari aber selten ist.

Sobald Sie stoppen, bleibt die Transkription in der Textarea, vollständig editierbar. Die Kopier- und Download-Buttons arbeiten am Text in der Textarea; beide geschehen lokal ohne Server-Beteiligung. Das Tool selbst überträgt Ihr Audio oder Ihre Transkription nie irgendwohin; die einzige Netzwerkaktivität ist das, was der Browser intern tut, um mit Googles oder Microsofts Sprachdienst zu kommunizieren (oder keine, auf Safari). Ihre Transkription wird nie gespeichert: Aktualisieren Sie die Seite und sie ist weg, es sei denn, Sie haben sie zuvor kopiert oder heruntergeladen.

Kurze Geschichte der Spracherkennung

Reale Arbeitsabläufe

Häufige Fallstricke und was sie bedeuten

Datenschutz: Audio-Handhabung unterscheidet sich je nach Browser

Im Gegensatz zu den meisten Tools auf dieser Website, die vollständig clientseitig laufen, hängen die Datenschutzeigenschaften der Web Speech API davon ab, welchen Browser Sie verwenden. Chrome und Edge übertragen Ihr Mikrofon-Audio an Googles und Microsofts Cloud-Spracherkennungsdienste. Beide Unternehmen geben an, dass sie das Audio für Spracherkennungsabfragen nicht langfristig speichern (im Gegensatz zu benutzertrainierten Sprachprofilen), aber das Audio verlässt Ihr Gerät, durchquert ihre Netzwerke und wird auf ihren Servern verarbeitet. Safari auf iOS 17+ und macOS Sonoma+ führt die Spracherkennung vollständig auf dem Gerät mit Apples On-Device-ASR aus, sodass Ihr Audio nie Ihren Mac oder Ihr iPhone verlässt. Ältere Safari-Versionen und andere Apple-Browser können sich unterscheiden.

Absolutool selbst empfängt nichts. Die Seite ruft die Sprach-API des Browsers auf, der Browser handhabt das Audio (entweder auf dem Gerät oder über den Cloud-Dienst seines Anbieters), und nur der resultierende Transkriptionstext kommt zurück in die Seite. Das Tool zeigt dann den Text an und lässt Sie ihn kopieren oder herunterladen; kein Serveraufruf erfolgt von der Seite selbst. Für Benutzer, die vertrauliche Inhalte handhaben, ist der empfohlene Ansatz: (1) Safari auf einem aktuellen Apple-Gerät für On-Device-Verarbeitung verwenden, oder (2) ein dediziertes Offline-Tool wie lokal laufendes Whisper verwenden, oder (3) akzeptieren, dass Chrome und Edge Audio durch Google/Microsoft leiten, und sie nur für nicht-sensible Inhalte verwenden.

Wann ein anderes Tool die richtige Wahl ist

Weitere häufig gestellte Fragen

Warum stoppt die Erkennung nach einer Minute?

Chrome und Edge haben eingebaute Timeouts, die Web-Speech-Erkennungssitzungen nach etwa 30 bis 60 Sekunden beenden, um Bandbreite zu sparen und versehentliche unbegrenzte Aufnahme zu verhindern. Aktivieren Sie den kontinuierlichen Modus im Tool, um die Erkennung automatisch neu zu starten, wenn dies geschieht. Der kontinuierliche Modus führt kurze Pausen zwischen Sitzungen ein (typischerweise weniger als eine Sekunde), was zu gelegentlich fehlenden Wörtern an den Nahtstellen führen kann. Safari behandelt längere Sitzungen ohne Timeouts anmutiger.

Warum ist die Genauigkeit niedriger als ich erwartet hatte?

Drei Faktoren: (1) Ihr Akzent kann sich von den Trainingsdaten unterscheiden; erwägen Sie, eine nähere Sprachvariante auszuprobieren (z. B. en-IN für indisches Englisch, en-AU für australisches). (2) Hintergrundgeräusche, Mikrofonentfernung und Audioqualität sind wichtig; ruhiger Raum und nahes Mikrofon produzieren 95%+ Genauigkeit, während laute Umgebung und entferntes Mikrofon auf 70% oder weniger fallen. (3) Spezialisiertes Vokabular (Fachbegriffe, Eigennamen, Markennamen) ist schwieriger als allgemeine Sprache; für hochgenaues professionelles Diktieren sind Dragons Sprechertraining und benutzerdefiniertes Vokabular die Kosten wert.

Kann ich Interpunktion per Stimme diktieren?

Nicht in diesem Tool. Die Web Speech API interpretiert Sprachbefehle für Interpunktion nicht; «Punkt» sagen fügt das Wort «Punkt» ein, nicht eine «.»-Markierung. Einige dedizierte Diktiertools (Dragon, Apple Dictation, Windows Voice Access) erkennen gesprochene Interpunktionsbefehle. Für browserbasiertes Diktieren ist der typische Workflow: die Wörter diktieren, dann Interpunktion in einem Bearbeitungsdurchgang mit der Tastatur hinzufügen. Moderne Langformmodelle (Whisper) fügen oft automatisch Interpunktion auf der Grundlage von Sprachmustern hinzu.

Funktioniert dies auf dem iPhone?

Ja, auf iOS 14.5 und höher über Safari. iOS 17 brachte On-Device-Spracherkennung über Safaris Web-Speech-API-Implementierung, sodass Ihr Audio nie Ihr iPhone verlässt. Für anhaltendes Diktieren auf iPhone oder iPad können Sie auch das systemweite iOS-Diktat verwenden (tippen Sie auf das Mikrofonsymbol auf der Tastatur), das in jedem Textfeld im gesamten OS funktioniert.

Warum unterstützt Firefox dies nicht?

Mozilla hat die Web Speech API in Firefox nicht implementiert, hauptsächlich aufgrund von Datenschutzbedenken beim Cloud-Routing-Modell, das von Chrome und Edge verwendet wird, und der technischen Komplexität, eine datenschutzwahrende Alternative zu implementieren. Firefox-Benutzer im Mozilla-Bugtracker fordern Sprachunterstützung seit Jahren; Mozillas offizielle Position ist, dass bedeutsame lokale Spracherkennung erhebliche Ressourcen erfordert und sie sie nicht priorisiert haben. Vorerst sollten Firefox-Benutzer, die Spracheingabe suchen, Chrome, Edge, Safari oder eine systemweite Lösung wie das OS-Diktat verwenden.

Kann ich eine vorab aufgezeichnete Audiodatei transkribieren?

Nicht direkt. Die Web Speech API akzeptiert nur Live-Mikrofoneingabe, keine Datei-Uploads. Um eine aufgezeichnete Datei zu transkribieren, ist die Umgehung, die Audiodatei über die Lautsprecher Ihres Computers abzuspielen (oder Audio-Routing-Software wie Soundflower oder BlackHole zu verwenden), während dieses Tool über das Mikrofon zuhört. Dies verliert etwas Genauigkeit aufgrund akustischer Verzerrung. Für hochwertige Transkription aufgezeichneten Audios verwenden Sie ein dediziertes Tool: Whisper (offline, kostenlos), Otter.ai oder einen Transkriptionsdienst wie Rev. Für gelegentliche informelle Transkription funktioniert der Wiedergabe-durch-Mikrofon-Trick.

Verwandte Tools