Riconoscimento vocale online gratuito
Converti la tua voce in testo istantaneamente. Nessun caricamento, nessuna registrazione, nessun account , parla e trascrivi.
Come funziona
- Consenti l'accesso al microfonoConcedi il permesso di usare il tuo microfono quando il browser lo richiede.
- Avvia la dettaturaClicca Avvia registrazione e parla chiaramente per vedere le tue parole trascritte in tempo reale.
- Modifica la trascrizioneRivedi e modifica il testo trascritto direttamente nell'area di testo modificabile.
- Copia o scaricaCopia il testo negli appunti o scaricalo come file TXT.
Perché usare il riconoscimento vocale?
La dettatura vocale è da 3 a 4 volte più veloce della digitazione, rendendola un ottimo strumento per la produttività. Utilizzando la Web Speech API integrata nel tuo browser, puoi dettare e-mail, note, post di blog o report senza installare alcun software. È anche un ottimo strumento di accessibilità per persone con difficoltà di digitazione o che preferiscono l'input vocale.
Caratteristiche
- Trascrizione in tempo reale, Guarda le tue parole apparire mentre parli, con aggiornamenti istantanei.
- Supporto multilingua, Scegli tra oltre 30 lingue e dialetti per un riconoscimento accurato.
- Modalità continua, Il riconoscimento si riavvia automaticamente per lunghe sessioni di dettatura.
- Privacy prima di tutto, Tutta l'elaborazione avviene nel tuo browser, nessun audio viene inviato ai nostri server.
- Output modificabile, Correggi e perfeziona la tua trascrizione direttamente prima di copiarla o scaricarla.
Cosa fa davvero lo speech-to-text del browser
Il riconoscimento vocale (chiamato anche Automatic Speech Recognition, ASR) converte audio parlato in testo scritto. I sistemi ASR moderni combinano un modello acustico (come i suoni si mappano sui fonemi), un modello linguistico (come parole e frasi si combinano nel linguaggio reale) e un decodificatore che trova la sequenza di parole più probabile dato l'audio. La rivoluzione degli anni 2010 è stata il deep learning: le reti neurali hanno sostituito i precedenti Hidden Markov Models sia per la modellazione acustica che linguistica, portando l'accuratezza dal 80% circa sul parlato pulito al 95% e oltre sull'audio cooperativo a parlante singolo. Nel 2022, Whisper di OpenAI ha dimostrato che un singolo modello multilingue poteva eguagliare o superare i sistemi specializzati in 99 lingue.
Questo strumento usa la Web Speech API del browser, lo standard W3C per l'ASR in-browser introdotto in Chrome 25 (2013) e aggiunto gradualmente a Edge, Safari e alla maggior parte dei browser Chromium. L'API espone un oggetto SpeechRecognition che invia in streaming l'audio del microfono al servizio vocale che il browser implementa: Chrome ed Edge instradano l'audio rispettivamente ai servizi vocali cloud di Google e Microsoft, mentre Safari su iOS 17+ e macOS Sonoma+ esegue il riconoscimento sul dispositivo. Firefox non implementa affatto la Web Speech API. Questa distinzione di privacy conta: lo strumento stesso gira nel tuo browser e non vede mai il tuo audio, ma Chrome ed Edge trasmettono l'audio ai server di Google/Microsoft per l'elaborazione.
Per la maggior parte degli utenti, il compromesso rispetto alla digitazione è drammatico. La velocità media di digitazione per gli impiegati d'ufficio è di 40-60 parole al minuto; la velocità media del parlato è di 130-150 parole al minuto. La dettatura vocale è 2-3 volte più veloce per buttare giù il testo iniziale, con la precisazione che la modifica successiva di solito avviene ancora con la tastiera. L'input vocale è importante anche per l'accessibilità: gli utenti con disabilità motorie, sforzo ripetitivo o infortuni temporanei possono produrre testo con la voce quando digitare è poco pratico. Per chi studia lingue, sentire se il sistema ha riconosciuto correttamente il parlato fornisce feedback sulla pronuncia. Per la cattura di riunioni, i trascritti in tempo reale aiutano sia i partecipanti che i colleghi assenti.
Come funziona questo strumento sotto il cofano
Quando clicchi Avvia Registrazione, la pagina crea un oggetto SpeechRecognition (o webkitSpeechRecognition nei Chrome più vecchi) e chiama start(). Il browser richiede il permesso per il microfono se non è stato precedentemente concesso, poi inizia a inviare in streaming l'audio catturato al servizio vocale di sistema. Il tag lingua che hai selezionato (ad esempio, en-US, fr-FR, zh-CN) viene passato al servizio così carica i modelli acustici e linguistici appropriati.
Il browser fornisce due tipi di risultati alla pagina: risultati provvisori (migliori ipotesi parziali, aggiornati 5-20 volte al secondo man mano che arriva nuovo audio) e risultati finali (trascrizione bloccata di un'enunciazione completa, tipicamente emessi quando chi parla fa una pausa). L'area di testo dello strumento mostra i risultati provvisori in uno stile più chiaro e blocca i risultati finali quando arrivano. Il contatore di parole si aggiorna solo dai risultati finali, così non sfarfalla mentre le ipotesi provvisorie cambiano. La modalità continua (un'opzione con checkbox) riavvia automaticamente la sessione di riconoscimento se il browser la termina dopo un lungo silenzio, cosa comune su Chrome ma rara su Safari.
Una volta fermato, il trascritto rimane nell'area di testo, completamente modificabile. I pulsanti Copia e Scarica lavorano sul testo nell'area di testo; entrambi avvengono localmente senza coinvolgimento del server. Lo strumento stesso non trasmette mai il tuo audio o trascritto da nessuna parte; l'unica attività di rete è quella che il browser fa internamente per comunicare con il servizio vocale di Google o Microsoft (o nessuna, su Safari). Il tuo trascritto non viene mai memorizzato: ricarica la pagina e sparisce, a meno che tu non l'abbia copiato o scaricato prima.
Breve storia del riconoscimento vocale
- Audrey, IBM 1952.I Bell Labs costruiscono il primo sistema di riconoscimento vocale, Audrey, che poteva riconoscere le cifre parlate da 0 a 9 da un singolo parlante addestrato. Il sistema riempiva una stanza e impiegava diversi secondi per cifra. IBM segue nel 1962 con la Shoebox, riconoscendo 16 parole inglesi parlate.
- Hidden Markov Models, anni '70 e '80.I ricercatori di IBM, CMU e Bell Labs applicano gli Hidden Markov Models (HMM) al parlato, migliorando drasticamente l'accuratezza e la dimensione del vocabolario. Harpy di Carnegie Mellon (1976) riconosce circa 1.000 parole da più parlanti. La tecnica rimane la base del riconoscimento vocale fino al 2010.
- Dragon NaturallySpeaking, 1997.Dragon Systems lancia il primo software commerciale di dettatura ampiamente usato per PC Windows. L'addestramento del parlante (leggere ad alta voce un brano per calibrarsi sulla tua voce) richiede 30 minuti; l'accuratezza raggiunge circa il 95% in condizioni ottimali. Diventa lo standard per la trascrizione legale, la dettatura medica e l'accessibilità per tutti gli anni 2000.
- Apple Siri, 2011.Apple acquisisce Siri Inc. e integra il riconoscimento vocale in iPhone 4S. Per la prima volta, il riconoscimento vocale è una funzionalità consumer mainstream, usata da centinaia di milioni di utenti ogni giorno. Google Now (2012) e Amazon Alexa (2014) seguono.
- Web Speech API nei browser, 2012-2013.Google aggiunge
webkitSpeechRecognitiona Chrome 25, presto standardizzato come Web Speech API del W3C. Le pagine web ottengono accesso allo stesso riconoscimento vocale che alimenta Google search e Now, senza richiedere un'app nativa. L'adozione si espande attraverso Chrome, Edge, Safari e altri browser Chromium nel decennio successivo. - Whisper e ASR sul dispositivo, 2022-2024.OpenAI rilascia Whisper (settembre 2022), un modello di riconoscimento vocale multilingue open source addestrato su 680.000 ore di audio. Si avvicina all'accuratezza umana in 99 lingue. La dettatura sul dispositivo di Apple su iOS 17 e macOS Sonoma (2023) elimina la necessità di inviare audio ai server di Apple. La tendenza verso il riconoscimento vocale sul dispositivo che preserva la privacy accelera.
Flussi di lavoro reali
- Dettare email e messaggi.Per la scrittura più lunga dove digitare è lento, lo speech-to-text bozza il contenuto in 2-3 volte meno tempo dell'input da tastiera. Flusso comune: dettare la prima bozza, poi rileggere e correggere gli errori con la tastiera. Funziona bene per email, messaggi Slack, post sui social media e qualsiasi testo dove le idee fluiscono più facilmente verbalmente che alla tastiera.
- Prendere appunti in riunione o lezione.Metti il tuo laptop vicino a un altoparlante (o a te stesso) e lascia che il trascritto giri durante una riunione o lezione. L'output cattura più dettagli letterali di quanti gli appunti scritti a mano possano. Per riunioni complesse con più parlanti e accenti, strumenti dedicati come Otter.ai producono trascritti più puliti; per lezioni di un singolo parlante, la dettatura basata su browser è sufficiente e gratuita.
- Accessibilità per disabilità motorie.Per gli utenti con artrite, lesioni da sforzo ripetitivo, paralisi o altre limitazioni motorie, l'input vocale non è una comodità ma un metodo di accesso primario. La Web Speech API del browser funziona su qualsiasi dispositivo con un microfono, non richiede hardware specializzato e opera istantaneamente. Per uso intensivo, gli strumenti di accessibilità dedicati (Dragon, Apple Voice Control, Windows Voice Access) forniscono un'integrazione di sistema più profonda incluso il controllo dell'OS stesso, non solo l'input di testo.
- Giornalismo e trascrizione di interviste.I reporter usano la dettatura vocale per buttare giù articoli tra le interviste e per produrre trascritti grezzi di interviste registrate. Lo strumento del browser non è un servizio di trascrizione completo (parlante singolo, sorgente audio singola), ma per flussi di lavoro tipo dammi un punto di partenza che posso modificare, fa risparmiare tempo sostanziale rispetto a digitare l'intero trascritto dalla riproduzione.
- Feedback sulla pronuncia per l'apprendimento delle lingue.Imposta la lingua a quella che stai imparando, parla una frase e leggi ciò che il sistema ha trascritto. Se il testo riconosciuto corrisponde a ciò che intendevi dire, la tua pronuncia era chiara; se differisce, hai un feedback specifico su quali suoni necessitano di lavoro. Gratuito, immediato e opera in oltre 30 lingue.
- Compilazione di moduli per voci lunghe.Per candidature di lavoro, moduli di feedback dei clienti o ticket di supporto con campi di testo lunghi, la dettatura produce output più velocemente del digitare mantenendo le mani libere per navigare la pagina. Particolarmente utile su tablet e telefoni dove le tastiere a schermo rallentano l'input. Parla la risposta, incollala nel campo del modulo, poi rivedi.
Trappole comuni e cosa significano
- Accenti e rumore riducono l'accuratezza.I modelli di riconoscimento vocale sono addestrati prevalentemente su certe varietà di accenti (inglese americano generale, RP britannico, ecc.). Forti accenti regionali, parlanti di seconda lingua e rumore di fondo possono far cadere l'accuratezza dal 95%+ al 70% o meno. Per accenti non standard, parla un po' più lentamente e chiaramente, avvicinati al microfono e considera uno strumento dedicato addestrato sul tuo accento o uno con adattamento al parlante come Dragon.
- La punteggiatura è assente o inaffidabile.La Web Speech API non inserisce la punteggiatura automaticamente; dire punto o punto interrogativo inserisce la parola stessa, non il segno di punteggiatura. Alcuni strumenti di dettatura specializzati (Dragon, Apple Dictation) interpretano comandi vocali per la punteggiatura, ma l'API del browser no. Pianifica di aggiungere la punteggiatura nella fase di editing dopo la dettatura.
- I timeout del browser terminano sessioni inaspettatamente.Chrome termina il riconoscimento vocale dopo circa 30-60 secondi di silenzio o talvolta a metà enunciazione. L'opzione Modalità Continua dello strumento riavvia automaticamente il riconoscimento, ma potresti notare brevi pause o parole mancate nei punti di giunzione. Per lunghe sessioni di dettatura, aspettati lacune occasionali. Safari gestisce sessioni più lunghe in modo più aggraziato.
- Firefox non supporta la Web Speech API.Mozilla ha scelto di non implementare la Web Speech API in Firefox, citando preoccupazioni di privacy e complessità. Gli utenti Firefox vedono riconoscimento vocale non supportato all'apertura di questo strumento. Per gli utenti Firefox dipendenti dall'accessibilità, questo è un gap significativo; è necessario Chrome, Edge o uno strumento dedicato integrato con screen reader.
- Chrome ed Edge inviano l'audio a Google o Microsoft.Diversamente dalla maggior parte degli strumenti browser su questo sito, la Web Speech API in Chrome ed Edge non gira sul dispositivo; il tuo audio viene trasmesso al servizio vocale di Google o Microsoft per l'elaborazione. Per contenuti riservati (deposizioni legali, dettatura medica, pianificazione proprietaria), questa è una considerazione di privacy significativa. Usa Safari (che è sul dispositivo su iOS 17+ e macOS Sonoma+) o uno strumento offline dedicato come Whisper in locale.
- Omofoni e nomi propri ingannano il modello.Loro / lì / sono, a / troppo / due in inglese, nomi come Sean / Shawn vengono indovinati dal contesto, a volte erroneamente. Gergo tecnico, nomi di marchi, parole straniere e vocabolario non comune sono particolarmente soggetti a errori. Pianifica di rileggere, specialmente per contenuti che verranno pubblicati o inviati senza ulteriore revisione.
Privacy: la gestione dell'audio differisce per browser
Diversamente dalla maggior parte degli strumenti su questo sito che girano interamente lato client, le proprietà di privacy della Web Speech API dipendono da quale browser usi. Chrome ed Edge trasmettono l'audio del tuo microfono ai servizi cloud di riconoscimento vocale di Google e Microsoft. Entrambe le aziende affermano di non memorizzare l'audio a lungo termine per query di riconoscimento vocale (al contrario dei profili vocali addestrati dall'utente), ma l'audio lascia il tuo dispositivo, attraversa le loro reti ed è elaborato sui loro server. Safari su iOS 17+ e macOS Sonoma+ esegue il riconoscimento vocale interamente sul dispositivo usando l'ASR on-device di Apple, così il tuo audio non lascia mai il tuo Mac o iPhone. Versioni più vecchie di Safari e altri browser Apple potrebbero differire.
Absolutool stesso non riceve nulla. La pagina chiama l'API vocale del browser, il browser gestisce l'audio (o sul dispositivo o tramite il servizio cloud del suo vendor) e solo il testo del trascritto risultante torna nella pagina. Lo strumento poi mostra il testo e ti lascia copiarlo o scaricarlo; nessuna chiamata server è fatta dalla pagina stessa. Per utenti che gestiscono contenuti riservati, l'approccio raccomandato è: (1) usare Safari su un dispositivo Apple recente per l'elaborazione sul dispositivo, o (2) usare uno strumento offline dedicato come Whisper in locale, o (3) accettare che Chrome ed Edge instradino l'audio attraverso Google/Microsoft e usarli solo per contenuti non sensibili.
Quando un altro strumento è la scelta giusta
- Whisper per la trascrizione offline.Whisper di OpenAI (open source, gratuito) gira interamente sulla tua macchina locale dopo un download una tantum. Il modello gestisce 99 lingue con accuratezza vicina al livello umano per audio chiaro. Richiede Python o uno dei tanti wrapper GUI (Whisper Desktop, MacWhisper, Buzz) e una macchina ragionevolmente potente per l'operazione in tempo reale. Per contenuti riservati, operazione offline o trascrizione batch di file audio registrati, Whisper è lo strumento giusto.
- Dragon NaturallySpeaking per la dettatura professionale.Dragon (ora di proprietà di Nuance/Microsoft, da 200 a 500 dollari a seconda dell'edizione) fornisce la massima accuratezza per la dettatura professionale sostenuta, con addestramento del parlante, vocabolario personalizzato, comandi vocali per punteggiatura e formattazione, e integrazione profonda con Microsoft Word e altre app. Per la trascrizione legale, la dettatura medica o chiunque detti per ore al giorno, il prezzo è giustificato.
- Otter.ai per trascritti di riunioni con più parlanti.Otter.ai (freemium, 8,33 dollari/mese per Pro) si specializza nella trascrizione di riunioni con diarizzazione dei parlanti (sapere chi ha detto cosa), punteggiatura automatica, riassunto e integrazione con Zoom, Teams e Google Meet. Per riunioni con più partecipanti dove l'attribuzione conta, Otter è lo strumento giusto. Compromesso di privacy: le riunioni sono memorizzate sui server di Otter.
- Dettatura OS nativa per input vocale a livello di sistema.Windows Voice Access, macOS Voice Control / Dettatura Avanzata e dettatura di sistema iOS/Android funzionano ovunque tu possa digitare, non solo in una singola pagina web. Per utenti di accessibilità che hanno bisogno di input vocale attraverso l'intero OS, la dettatura nativa è più pratica di uno strumento browser. Dettatura Avanzata di macOS e dettatura iOS 17+ sono sul dispositivo.
Altre domande frequenti
Perché il riconoscimento si ferma dopo un minuto?
Chrome ed Edge hanno timeout integrati che terminano le sessioni di riconoscimento Web Speech dopo circa 30-60 secondi, intesi a risparmiare banda e prevenire registrazione indefinita accidentale. Abilita la Modalità Continua nello strumento per riavviare automaticamente il riconoscimento quando questo accade. La modalità continua introduce brevi pause tra sessioni (tipicamente meno di un secondo), che possono risultare in parole mancate occasionali nei punti di giunzione. Safari gestisce sessioni più lunghe in modo più aggraziato senza timeout.
Perché l'accuratezza è più bassa di quanto mi aspettassi?
Tre fattori: (1) Il tuo accento potrebbe differire dai dati di addestramento; considera di provare una variante linguistica più vicina (ad esempio, en-IN per inglese indiano, en-AU per australiano). (2) Rumore di fondo, distanza dal microfono e qualità audio contano; stanza silenziosa e microfono ravvicinato producono 95%+ di accuratezza, mentre ambiente rumoroso e microfono distante scendono al 70% o meno. (3) Vocabolario specializzato (termini tecnici, nomi propri, marchi) è più difficile del parlato generale; per dettatura professionale ad alta accuratezza, l'addestramento del parlante di Dragon e il vocabolario personalizzato valgono il costo.
Posso dettare la punteggiatura con la voce?
Non in questo strumento. La Web Speech API non interpreta comandi vocali per la punteggiatura; dire punto inserisce la parola punto, non un segno di .. Alcuni strumenti di dettatura dedicati (Dragon, Apple Dictation, Windows Voice Access) riconoscono comandi di punteggiatura parlati. Per la dettatura basata su browser, il flusso tipico è: detta le parole, poi aggiungi la punteggiatura in una fase di editing con la tastiera. I modelli moderni long-form (Whisper) spesso aggiungono punteggiatura automaticamente in base ai pattern del parlato.
Funziona su iPhone?
Sì, su iOS 14.5 e successivi tramite Safari. iOS 17 ha portato il riconoscimento vocale sul dispositivo attraverso l'implementazione della Web Speech API di Safari, così il tuo audio non lascia mai il tuo iPhone. Per dettatura sostenuta su iPhone o iPad, puoi anche usare la Dettatura iOS a livello di sistema (tocca l'icona del microfono sulla tastiera), che funziona in qualsiasi campo di testo attraverso l'OS.
Perché Firefox non lo supporta?
Mozilla non ha implementato la Web Speech API in Firefox, principalmente per preoccupazioni di privacy con il modello di routing cloud usato da Chrome ed Edge, e per la complessità ingegneristica di implementare un'alternativa che preservi la privacy. Gli utenti Firefox sul bug tracker di Mozilla hanno richiesto il supporto vocale per anni; la posizione ufficiale di Mozilla è che il riconoscimento vocale locale significativo richiede risorse significative e non l'hanno prioritizzato. Per ora, gli utenti Firefox che cercano input vocale dovrebbero usare Chrome, Edge, Safari o una soluzione a livello di sistema come la dettatura OS.
Posso trascrivere un file audio pre-registrato?
Non direttamente. La Web Speech API accetta solo input dal microfono dal vivo, non upload di file. Per trascrivere un file registrato, la soluzione alternativa è riprodurre il file audio attraverso gli altoparlanti del tuo computer (o usare software di routing audio come Soundflower o BlackHole) mentre questo strumento ascolta tramite il microfono. Questo perde un po' di accuratezza per la distorsione acustica. Per trascrizione di alta qualità di audio registrato, usa uno strumento dedicato: Whisper (offline, gratuito), Otter.ai, o un servizio di trascrizione come Rev. Per trascrizione informale occasionale, il trucco riproduzione-attraverso-microfono funziona.