Kostenlose Spracherkennung online
Wandeln Sie Ihre Stimme sofort in Text um. Keine Uploads, keine Anmeldung, keine Konten - einfach sprechen und transkribieren.
So funktioniert's
- Mikrofonzugriff erlaubenErteilen Sie die Berechtigung zur Nutzung Ihres Mikrofons, wenn Ihr Browser dies anfordert.
- Diktat startenKlicken Sie auf Aufnahme starten und sprechen Sie deutlich, um Ihre Wörter live transkribiert zu sehen.
- Transkript bearbeitenÜberprüfen und passen Sie den transkribierten Text direkt im bearbeitbaren Textfeld an.
- Kopieren oder herunterladenKopieren Sie den Text in Ihre Zwischenablage oder laden Sie ihn als TXT-Datei herunter.
Warum Spracherkennung nutzen?
Sprachdiktat ist 3- bis 4-mal schneller als Tippen und damit ein hervorragendes Produktivitätstool. Mit der in Ihrem Browser integrierten Web Speech API können Sie E-Mails, Notizen, Blogbeiträge oder Berichte diktieren, ohne Software zu installieren. Es ist auch ein großartiges Barrierefreiheits-Tool für Personen mit Tippschwierigkeiten oder solche, die Spracheingabe bevorzugen.
Funktionen
- Echtzeit-Transkription, Sehen Sie Ihre Wörter beim Sprechen erscheinen, mit sofortigen Aktualisierungen.
- Mehrsprachige Unterstützung, Wählen Sie aus über 30 Sprachen und Dialekten für präzise Erkennung.
- Kontinuierlicher Modus, Die Erkennung startet automatisch neu für lange Diktatsitzungen.
- Datenschutz zuerst, Die gesamte Verarbeitung erfolgt in Ihrem Browser, es wird kein Audio an unsere Server gesendet.
- Bearbeitbare Ausgabe, Korrigieren und verfeinern Sie Ihr Transkript direkt, bevor Sie es kopieren oder herunterladen.
Was Browser-Spracherkennung wirklich tut
Spracherkennung (auch Automatic Speech Recognition oder ASR genannt) konvertiert gesprochenes Audio in geschriebenen Text. Moderne ASR-Systeme kombinieren ein akustisches Modell (wie Klänge zu Phonemen zuordnen), ein Sprachmodell (wie Wörter und Phrasen in echter Sprache zusammengehen) und einen Decoder, der die wahrscheinlichste Wortsequenz für das gegebene Audio findet. Die Revolution der 2010er war Deep Learning: Neuronale Netze ersetzten frühere Hidden Markov Models sowohl für akustisches als auch für Sprachmodellieren, was die Genauigkeit von etwa 80% bei sauberer Sprache auf 95%+ bei kooperativem Einzelsprecher-Audio anhob. Bis 2022 demonstrierte OpenAIs Whisper, dass ein einzelnes mehrsprachiges Modell spezialisierte Systeme über 99 Sprachen hinweg erreichen oder übertreffen konnte.
Dieses Tool verwendet die Web Speech API des Browsers, den W3C-Standard für ASR im Browser, der in Chrome 25 (2013) eingeführt und schrittweise zu Edge, Safari und den meisten Chromium-Browsern hinzugefügt wurde. Die API stellt ein SpeechRecognition-Objekt zur Verfügung, das Mikrofon-Audio an den vom Browser implementierten Sprachdienst streamt: Chrome und Edge leiten Audio an die Cloud-Sprachdienste von Google und Microsoft jeweils weiter, während Safari auf iOS 17+ und macOS Sonoma+ die Erkennung auf dem Gerät ausführt. Firefox implementiert die Web Speech API überhaupt nicht. Dieser Datenschutzunterschied ist wichtig: Das Tool selbst läuft in Ihrem Browser und sieht Ihr Audio nie, aber Chrome und Edge übertragen Audio tatsächlich zu Google/Microsoft-Servern zur Verarbeitung.
Für die meisten Benutzer ist der Kompromiss versus Tippen dramatisch. Die durchschnittliche Tippgeschwindigkeit für Büroangestellte beträgt 40 bis 60 Wörter pro Minute; durchschnittliche Sprache ist 130 bis 150 Wörter pro Minute. Sprachdiktat ist 2x bis 3x schneller, um den anfänglichen Text zu erhalten, mit der Einschränkung, dass die Bearbeitung danach normalerweise immer noch Tippen ist. Spracheingabe ist auch für Barrierefreiheit wichtig: Benutzer mit motorischen Behinderungen, Wiederholungs-Belastungsstörungen oder temporären Verletzungen können Text per Stimme produzieren, wenn Tippen unpraktisch ist. Für Sprachlerner liefert das Hören, ob das System Ihre Sprache korrekt erkannt hat, Feedback zur Aussprache. Für Besprechungsaufnahmen helfen Echtzeit-Transkripte Teilnehmern und abwesenden Kollegen gleichermaßen.
Wie dieses Tool hinter den Kulissen funktioniert
Wenn Sie auf «Aufnahme starten» klicken, erstellt die Seite ein SpeechRecognition-Objekt (oder webkitSpeechRecognition in älteren Chrome-Versionen) und ruft start() auf. Der Browser fordert die Mikrofonerlaubnis an, wenn sie nicht zuvor erteilt wurde, dann beginnt er, das erfasste Audio an den System-Sprachdienst zu streamen. Das Sprachtag, das Sie ausgewählt haben (z. B. en-US, fr-FR, zh-CN), wird an den Dienst übergeben, damit er die entsprechenden akustischen und Sprachmodelle lädt.
Der Browser liefert zwei Arten von Ergebnissen an die Seite: vorläufige Ergebnisse (partielle beste Vermutungen, 5- bis 20-mal pro Sekunde aktualisiert, wenn neues Audio eintrifft) und endgültige Ergebnisse (gesperrte Transkription einer vollständigen Äußerung, typischerweise herausgegeben, wenn der Sprecher einen Moment pausiert). Die Textarea des Tools zeigt vorläufige Ergebnisse in einem helleren Stil und sperrt endgültige Ergebnisse, sobald sie eintreffen. Der Wortzähler aktualisiert sich nur aus den endgültigen Ergebnissen, sodass er nicht flackert, wenn sich vorläufige Vermutungen ändern. Der kontinuierliche Modus (eine Checkbox-Option) startet die Erkennungssitzung automatisch neu, wenn der Browser sie nach einem langen Schweigen beendet, was bei Chrome üblich, bei Safari aber selten ist.
Sobald Sie stoppen, bleibt die Transkription in der Textarea, vollständig editierbar. Die Kopier- und Download-Buttons arbeiten am Text in der Textarea; beide geschehen lokal ohne Server-Beteiligung. Das Tool selbst überträgt Ihr Audio oder Ihre Transkription nie irgendwohin; die einzige Netzwerkaktivität ist das, was der Browser intern tut, um mit Googles oder Microsofts Sprachdienst zu kommunizieren (oder keine, auf Safari). Ihre Transkription wird nie gespeichert: Aktualisieren Sie die Seite und sie ist weg, es sei denn, Sie haben sie zuvor kopiert oder heruntergeladen.
Kurze Geschichte der Spracherkennung
- Audrey, IBM 1952.Bell Labs baut das erste Spracherkennungssystem, «Audrey», das gesprochene Ziffern 0 bis 9 von einem einzigen trainierten Sprecher erkennen konnte. Das System füllte einen Raum und benötigte mehrere Sekunden pro Ziffer. IBM folgt 1962 mit der Shoebox, die 16 gesprochene englische Wörter erkennt.
- Hidden Markov Models, 1970er und 1980er Jahre.Forscher bei IBM, CMU und Bell Labs wenden Hidden Markov Models (HMMs) auf Sprache an und verbessern dramatisch die Genauigkeit und Vokabulargröße. Carnegie Mellons Harpy (1976) erkennt etwa 1.000 Wörter von mehreren Sprechern. Die Technik bleibt bis 2010 das Fundament der Spracherkennung.
- Dragon NaturallySpeaking, 1997.Dragon Systems bringt die erste weit verbreitete kommerzielle Diktiersoftware für Windows-PCs auf den Markt. Sprechertraining (eine Passage vorlesen, um auf Ihre Stimme zu kalibrieren) dauert 30 Minuten; die Genauigkeit erreicht unter optimalen Bedingungen etwa 95%. Wird in den 2000er Jahren zum Standard für juristische Transkription, medizinisches Diktat und Barrierefreiheit.
- Apple Siri, 2011.Apple übernimmt Siri Inc. und integriert Spracherkennung in das iPhone 4S. Zum ersten Mal ist Spracherkennung ein Mainstream-Konsumentenfeature, auf das täglich Hunderte Millionen Benutzer zugreifen. Google Now (2012) und Amazon Alexa (2014) folgen.
- Web Speech API in Browsern, 2012 bis 2013.Google fügt
webkitSpeechRecognitionzu Chrome 25 hinzu, bald als W3C Web Speech API standardisiert. Webseiten erhalten Zugriff auf dieselbe Spracherkennung, die Google Search und Now antreibt, ohne dass eine native App erforderlich ist. Die Adoption erweitert sich im folgenden Jahrzehnt über Chrome, Edge, Safari und andere Chromium-Browser. - Whisper und On-Device ASR, 2022 bis 2024.OpenAI veröffentlicht Whisper (September 2022), ein Open-Source-Multisprachen-Spracherkennungsmodell, das auf 680.000 Stunden Audio trainiert wurde. Nähert sich menschlicher Genauigkeit über 99 Sprachen hinweg. Apples On-Device-Diktat auf iOS 17 und macOS Sonoma (2023) macht das Senden von Audio an Apples Server überflüssig. Der Trend zur datenschutzwahrenden On-Device-Spracherkennung beschleunigt sich.
Reale Arbeitsabläufe
- E-Mails und Nachrichten diktieren.Für längeres Schreiben, bei dem Tippen langsam ist, entwirft Spracherkennung den Inhalt in 2x bis 3x weniger Zeit als die Tastatureingabe. Üblicher Workflow: den ersten Entwurf diktieren, dann durchlesen und Fehler mit der Tastatur korrigieren. Funktioniert gut für E-Mails, Slack-Nachrichten, Social-Media-Beiträge und jeden Text, bei dem Ideen leichter verbal als an der Tastatur fließen.
- Besprechungs- und Vorlesungs-Notizen.Platzieren Sie Ihren Laptop in der Nähe eines Lautsprechers (oder sich selbst) und lassen Sie die Transkription während einer Besprechung oder Vorlesung laufen. Die Ausgabe erfasst mehr wörtliche Details, als handschriftliche Notizen es können. Für komplexe Besprechungen mit mehreren Sprechern und Akzenten produzieren dedizierte Tools wie Otter.ai sauberere Transkripte; für Solo-Vorlesungen ist browserbasiertes Diktieren ausreichend und kostenlos.
- Barrierefreiheit für motorische Behinderungen.Für Benutzer mit Arthritis, Wiederholungs-Belastungsstörungen, Lähmung oder anderen motorischen Einschränkungen ist Spracheingabe keine Annehmlichkeit, sondern eine primäre Zugangsmethode. Die Browser-Web-Speech-API funktioniert auf jedem Gerät mit Mikrofon, erfordert keine spezielle Hardware und arbeitet sofort. Für intensive Nutzung bieten dedizierte Barrierefreiheits-Tools (Dragon, Apple Voice Control, Windows Voice Access) tiefere Systemintegration, einschließlich der Steuerung des Betriebssystems selbst, nicht nur Texteingabe.
- Journalismus und Interview-Transkription.Reporter verwenden Sprachdiktat, um Artikel zwischen Interviews zu entwerfen und um grobe Transkripte von aufgezeichneten Interviews zu produzieren. Das Browser-Tool ist kein vollständiger Transkriptionsdienst (einzelner Sprecher, einzelne Audioquelle), aber für «Gib mir einen Ausgangspunkt, den ich bearbeiten kann»-Workflows spart es erhebliche Zeit im Vergleich zum Tippen der gesamten Transkription aus der Wiedergabe.
- Aussprache-Feedback für Sprachenlernen.Stellen Sie die Sprache auf die ein, die Sie lernen, sprechen Sie einen Satz und lesen Sie zurück, was das System transkribiert hat. Wenn der erkannte Text mit dem übereinstimmt, was Sie sagen wollten, war Ihre Aussprache klar; wenn er sich unterscheidet, haben Sie spezifisches Feedback darüber, welche Klänge Arbeit benötigen. Kostenlos, sofort und arbeitet in 30+ Sprachen.
- Formularausfüllung für lange Einträge.Für Stellenbewerbungen, Kundenfeedback-Formulare oder Support-Tickets mit langen Textfeldern produziert Diktieren Ausgabe schneller als Tippen, während Ihre Hände frei bleiben, um die Seite zu navigieren. Besonders nützlich auf Tablets und Telefonen, wo Bildschirmtastaturen die Eingabe verlangsamen. Sprechen Sie die Antwort, fügen Sie sie in das Formularfeld ein und überprüfen Sie sie.
Häufige Fallstricke und was sie bedeuten
- Akzente und Lärm reduzieren die Genauigkeit.Spracherkennungsmodelle werden überwiegend auf bestimmten Akzentvarianten trainiert (allgemeines amerikanisches Englisch, RP-Britisch usw.). Starke regionale Akzente, Zweitsprachensprecher und Hintergrundgeräusche können die Genauigkeit von 95%+ auf 70% oder weniger senken. Für nicht standardmäßige Akzente sprechen Sie etwas langsamer und deutlicher, gehen Sie näher an das Mikrofon und erwägen Sie ein dediziertes Tool, das auf Ihren Akzent trainiert ist, oder eines mit Sprecheranpassung wie Dragon.
- Interpunktion ist abwesend oder unzuverlässig.Die Web Speech API fügt Interpunktion nicht automatisch ein; «Punkt» oder «Fragezeichen» sagen fügt das eigentliche Wort ein, nicht das Interpunktionszeichen. Einige spezialisierte Diktier-Tools (Dragon, Apple Dictation) interpretieren Sprachbefehle für Interpunktion, aber die Browser-API tut dies nicht. Planen Sie ein, Interpunktion in der Bearbeitungsphase nach dem Diktat hinzuzufügen.
- Browser-Timeouts beenden Sitzungen unerwartet.Chrome beendet die Spracherkennung nach etwa 30 bis 60 Sekunden Stille oder manchmal mitten in einer Äußerung. Die Option Kontinuierlicher Modus des Tools startet die Erkennung automatisch neu, wenn dies geschieht, aber Sie können kurze Pausen oder fehlende Wörter an den Nahtstellen bemerken. Für lange Diktiersitzungen erwarten Sie gelegentliche Lücken. Safari behandelt längere Sitzungen anmutiger.
- Firefox unterstützt die Web Speech API nicht.Mozilla hat entschieden, die Web Speech API in Firefox nicht zu implementieren und führt Datenschutz- und Komplexitätsbedenken an. Firefox-Benutzer sehen «Spracherkennung nicht unterstützt» beim Öffnen dieses Tools. Für Firefox-nutzende, auf Barrierefreiheit angewiesene Benutzer ist dies eine signifikante Lücke; Chrome, Edge oder ein dediziertes mit Bildschirmleser integriertes Tool ist erforderlich.
- Chrome und Edge senden Audio an Google oder Microsoft.Im Gegensatz zu den meisten Browser-Tools auf dieser Website läuft die Web Speech API in Chrome und Edge nicht auf dem Gerät; Ihr Audio wird an Googles oder Microsofts Sprachdienst zur Verarbeitung übertragen. Für vertraulichen Inhalt (juristische Aussagen, medizinisches Diktat, proprietäre Planung) ist dies eine bedeutsame Datenschutzüberlegung. Verwenden Sie Safari (das auf iOS 17+ und macOS Sonoma+ auf dem Gerät ist) oder ein dediziertes Offline-Tool wie lokal laufendes Whisper.
- Homophone und Eigennamen bringen das Modell ins Stolpern.«Sieben / sieben», «das / dass», Namen wie «Sean / Shawn» werden aus dem Kontext erraten, manchmal falsch. Technische Fachsprache, Markennamen, Fremdwörter und ungewöhnliches Vokabular sind besonders fehleranfällig. Planen Sie das Korrekturlesen ein, insbesondere für Inhalte, die ohne weitere Überprüfung veröffentlicht oder gesendet werden.
Datenschutz: Audio-Handhabung unterscheidet sich je nach Browser
Im Gegensatz zu den meisten Tools auf dieser Website, die vollständig clientseitig laufen, hängen die Datenschutzeigenschaften der Web Speech API davon ab, welchen Browser Sie verwenden. Chrome und Edge übertragen Ihr Mikrofon-Audio an Googles und Microsofts Cloud-Spracherkennungsdienste. Beide Unternehmen geben an, dass sie das Audio für Spracherkennungsabfragen nicht langfristig speichern (im Gegensatz zu benutzertrainierten Sprachprofilen), aber das Audio verlässt Ihr Gerät, durchquert ihre Netzwerke und wird auf ihren Servern verarbeitet. Safari auf iOS 17+ und macOS Sonoma+ führt die Spracherkennung vollständig auf dem Gerät mit Apples On-Device-ASR aus, sodass Ihr Audio nie Ihren Mac oder Ihr iPhone verlässt. Ältere Safari-Versionen und andere Apple-Browser können sich unterscheiden.
Absolutool selbst empfängt nichts. Die Seite ruft die Sprach-API des Browsers auf, der Browser handhabt das Audio (entweder auf dem Gerät oder über den Cloud-Dienst seines Anbieters), und nur der resultierende Transkriptionstext kommt zurück in die Seite. Das Tool zeigt dann den Text an und lässt Sie ihn kopieren oder herunterladen; kein Serveraufruf erfolgt von der Seite selbst. Für Benutzer, die vertrauliche Inhalte handhaben, ist der empfohlene Ansatz: (1) Safari auf einem aktuellen Apple-Gerät für On-Device-Verarbeitung verwenden, oder (2) ein dediziertes Offline-Tool wie lokal laufendes Whisper verwenden, oder (3) akzeptieren, dass Chrome und Edge Audio durch Google/Microsoft leiten, und sie nur für nicht-sensible Inhalte verwenden.
Wann ein anderes Tool die richtige Wahl ist
- Whisper für Offline-Transkription.OpenAIs Whisper (Open Source, kostenlos) läuft vollständig auf Ihrem lokalen Rechner nach einem einmaligen Download. Das Modell handhabt 99 Sprachen mit Genauigkeit nahe menschlichem Niveau für klares Audio. Erfordert Python oder einen der vielen GUI-Wrapper (Whisper Desktop, MacWhisper, Buzz) und einen einigermaßen leistungsstarken Rechner für Echtzeitbetrieb. Für vertrauliche Inhalte, Offline-Betrieb oder Stapeltranskription aufgezeichneter Audiodateien ist Whisper das richtige Tool.
- Dragon NaturallySpeaking für professionelles Diktieren.Dragon (jetzt im Besitz von Nuance/Microsoft, 200 $ bis 500 $ je nach Edition) bietet die höchste Genauigkeit für anhaltendes professionelles Diktieren, mit Sprechertraining, benutzerdefiniertem Vokabular, Sprachbefehlen für Interpunktion und Formatierung und tiefer Integration mit Microsoft Word und anderen Apps. Für juristische Transkription, medizinisches Diktat oder jeden, der stundenlang am Tag diktiert, ist der Preis gerechtfertigt.
- Otter.ai für Multi-Sprecher-Besprechungstranskripte.Otter.ai (Freemium, 8,33 $/Monat für Pro) spezialisiert sich auf Besprechungstranskription mit Sprecherdiarization (wissen, wer was gesagt hat), automatischer Interpunktion, Zusammenfassung und Integration mit Zoom, Teams und Google Meet. Für Besprechungen mit mehreren Teilnehmern, bei denen die Zuordnung wichtig ist, ist Otter das richtige Tool. Datenschutz-Kompromiss: Besprechungen werden auf Otters Servern gespeichert.
- Native OS-Diktat für systemweite Spracheingabe.Windows Voice Access, macOS Voice Control / Enhanced Dictation und iOS / Android-Systemdiktat funktionieren überall, wo Sie tippen können, nicht nur auf einer einzigen Webseite. Für Barrierefreiheits-Benutzer, die Spracheingabe im gesamten OS benötigen, ist das native Diktieren praktischer als ein Browser-Tool. macOS Enhanced Dictation und iOS 17+ Diktat sind auf dem Gerät.
Weitere häufig gestellte Fragen
Warum stoppt die Erkennung nach einer Minute?
Chrome und Edge haben eingebaute Timeouts, die Web-Speech-Erkennungssitzungen nach etwa 30 bis 60 Sekunden beenden, um Bandbreite zu sparen und versehentliche unbegrenzte Aufnahme zu verhindern. Aktivieren Sie den kontinuierlichen Modus im Tool, um die Erkennung automatisch neu zu starten, wenn dies geschieht. Der kontinuierliche Modus führt kurze Pausen zwischen Sitzungen ein (typischerweise weniger als eine Sekunde), was zu gelegentlich fehlenden Wörtern an den Nahtstellen führen kann. Safari behandelt längere Sitzungen ohne Timeouts anmutiger.
Warum ist die Genauigkeit niedriger als ich erwartet hatte?
Drei Faktoren: (1) Ihr Akzent kann sich von den Trainingsdaten unterscheiden; erwägen Sie, eine nähere Sprachvariante auszuprobieren (z. B. en-IN für indisches Englisch, en-AU für australisches). (2) Hintergrundgeräusche, Mikrofonentfernung und Audioqualität sind wichtig; ruhiger Raum und nahes Mikrofon produzieren 95%+ Genauigkeit, während laute Umgebung und entferntes Mikrofon auf 70% oder weniger fallen. (3) Spezialisiertes Vokabular (Fachbegriffe, Eigennamen, Markennamen) ist schwieriger als allgemeine Sprache; für hochgenaues professionelles Diktieren sind Dragons Sprechertraining und benutzerdefiniertes Vokabular die Kosten wert.
Kann ich Interpunktion per Stimme diktieren?
Nicht in diesem Tool. Die Web Speech API interpretiert Sprachbefehle für Interpunktion nicht; «Punkt» sagen fügt das Wort «Punkt» ein, nicht eine «.»-Markierung. Einige dedizierte Diktiertools (Dragon, Apple Dictation, Windows Voice Access) erkennen gesprochene Interpunktionsbefehle. Für browserbasiertes Diktieren ist der typische Workflow: die Wörter diktieren, dann Interpunktion in einem Bearbeitungsdurchgang mit der Tastatur hinzufügen. Moderne Langformmodelle (Whisper) fügen oft automatisch Interpunktion auf der Grundlage von Sprachmustern hinzu.
Funktioniert dies auf dem iPhone?
Ja, auf iOS 14.5 und höher über Safari. iOS 17 brachte On-Device-Spracherkennung über Safaris Web-Speech-API-Implementierung, sodass Ihr Audio nie Ihr iPhone verlässt. Für anhaltendes Diktieren auf iPhone oder iPad können Sie auch das systemweite iOS-Diktat verwenden (tippen Sie auf das Mikrofonsymbol auf der Tastatur), das in jedem Textfeld im gesamten OS funktioniert.
Warum unterstützt Firefox dies nicht?
Mozilla hat die Web Speech API in Firefox nicht implementiert, hauptsächlich aufgrund von Datenschutzbedenken beim Cloud-Routing-Modell, das von Chrome und Edge verwendet wird, und der technischen Komplexität, eine datenschutzwahrende Alternative zu implementieren. Firefox-Benutzer im Mozilla-Bugtracker fordern Sprachunterstützung seit Jahren; Mozillas offizielle Position ist, dass bedeutsame lokale Spracherkennung erhebliche Ressourcen erfordert und sie sie nicht priorisiert haben. Vorerst sollten Firefox-Benutzer, die Spracheingabe suchen, Chrome, Edge, Safari oder eine systemweite Lösung wie das OS-Diktat verwenden.
Kann ich eine vorab aufgezeichnete Audiodatei transkribieren?
Nicht direkt. Die Web Speech API akzeptiert nur Live-Mikrofoneingabe, keine Datei-Uploads. Um eine aufgezeichnete Datei zu transkribieren, ist die Umgehung, die Audiodatei über die Lautsprecher Ihres Computers abzuspielen (oder Audio-Routing-Software wie Soundflower oder BlackHole zu verwenden), während dieses Tool über das Mikrofon zuhört. Dies verliert etwas Genauigkeit aufgrund akustischer Verzerrung. Für hochwertige Transkription aufgezeichneten Audios verwenden Sie ein dediziertes Tool: Whisper (offline, kostenlos), Otter.ai oder einen Transkriptionsdienst wie Rev. Für gelegentliche informelle Transkription funktioniert der Wiedergabe-durch-Mikrofon-Trick.