Riconoscimento vocale online gratuito

Converti la tua voce in testo istantaneamente. Nessun caricamento, nessuna registrazione, nessun account , parla e trascrivi.

🔒 Privato: tutta l'elaborazione avviene nel tuo browser
Conteggio parole: 0
Nota: Questo strumento richiede un browser moderno con supporto per il riconoscimento vocale (Chrome, Edge, Safari, Opera). È necessario l'accesso al microfono e verrà utilizzato solo durante la sessione di registrazione.

Come funziona

  1. Consenti l'accesso al microfonoConcedi il permesso di usare il tuo microfono quando il browser lo richiede.
  2. Avvia la dettaturaClicca Avvia registrazione e parla chiaramente per vedere le tue parole trascritte in tempo reale.
  3. Modifica la trascrizioneRivedi e modifica il testo trascritto direttamente nell'area di testo modificabile.
  4. Copia o scaricaCopia il testo negli appunti o scaricalo come file TXT.

Perché usare il riconoscimento vocale?

La dettatura vocale è da 3 a 4 volte più veloce della digitazione, rendendola un ottimo strumento per la produttività. Utilizzando la Web Speech API integrata nel tuo browser, puoi dettare e-mail, note, post di blog o report senza installare alcun software. È anche un ottimo strumento di accessibilità per persone con difficoltà di digitazione o che preferiscono l'input vocale.

Caratteristiche

Cosa fa davvero lo speech-to-text del browser

Il riconoscimento vocale (chiamato anche Automatic Speech Recognition, ASR) converte audio parlato in testo scritto. I sistemi ASR moderni combinano un modello acustico (come i suoni si mappano sui fonemi), un modello linguistico (come parole e frasi si combinano nel linguaggio reale) e un decodificatore che trova la sequenza di parole più probabile dato l'audio. La rivoluzione degli anni 2010 è stata il deep learning: le reti neurali hanno sostituito i precedenti Hidden Markov Models sia per la modellazione acustica che linguistica, portando l'accuratezza dal 80% circa sul parlato pulito al 95% e oltre sull'audio cooperativo a parlante singolo. Nel 2022, Whisper di OpenAI ha dimostrato che un singolo modello multilingue poteva eguagliare o superare i sistemi specializzati in 99 lingue.

Questo strumento usa la Web Speech API del browser, lo standard W3C per l'ASR in-browser introdotto in Chrome 25 (2013) e aggiunto gradualmente a Edge, Safari e alla maggior parte dei browser Chromium. L'API espone un oggetto SpeechRecognition che invia in streaming l'audio del microfono al servizio vocale che il browser implementa: Chrome ed Edge instradano l'audio rispettivamente ai servizi vocali cloud di Google e Microsoft, mentre Safari su iOS 17+ e macOS Sonoma+ esegue il riconoscimento sul dispositivo. Firefox non implementa affatto la Web Speech API. Questa distinzione di privacy conta: lo strumento stesso gira nel tuo browser e non vede mai il tuo audio, ma Chrome ed Edge trasmettono l'audio ai server di Google/Microsoft per l'elaborazione.

Per la maggior parte degli utenti, il compromesso rispetto alla digitazione è drammatico. La velocità media di digitazione per gli impiegati d'ufficio è di 40-60 parole al minuto; la velocità media del parlato è di 130-150 parole al minuto. La dettatura vocale è 2-3 volte più veloce per buttare giù il testo iniziale, con la precisazione che la modifica successiva di solito avviene ancora con la tastiera. L'input vocale è importante anche per l'accessibilità: gli utenti con disabilità motorie, sforzo ripetitivo o infortuni temporanei possono produrre testo con la voce quando digitare è poco pratico. Per chi studia lingue, sentire se il sistema ha riconosciuto correttamente il parlato fornisce feedback sulla pronuncia. Per la cattura di riunioni, i trascritti in tempo reale aiutano sia i partecipanti che i colleghi assenti.

Come funziona questo strumento sotto il cofano

Quando clicchi Avvia Registrazione, la pagina crea un oggetto SpeechRecognition (o webkitSpeechRecognition nei Chrome più vecchi) e chiama start(). Il browser richiede il permesso per il microfono se non è stato precedentemente concesso, poi inizia a inviare in streaming l'audio catturato al servizio vocale di sistema. Il tag lingua che hai selezionato (ad esempio, en-US, fr-FR, zh-CN) viene passato al servizio così carica i modelli acustici e linguistici appropriati.

Il browser fornisce due tipi di risultati alla pagina: risultati provvisori (migliori ipotesi parziali, aggiornati 5-20 volte al secondo man mano che arriva nuovo audio) e risultati finali (trascrizione bloccata di un'enunciazione completa, tipicamente emessi quando chi parla fa una pausa). L'area di testo dello strumento mostra i risultati provvisori in uno stile più chiaro e blocca i risultati finali quando arrivano. Il contatore di parole si aggiorna solo dai risultati finali, così non sfarfalla mentre le ipotesi provvisorie cambiano. La modalità continua (un'opzione con checkbox) riavvia automaticamente la sessione di riconoscimento se il browser la termina dopo un lungo silenzio, cosa comune su Chrome ma rara su Safari.

Una volta fermato, il trascritto rimane nell'area di testo, completamente modificabile. I pulsanti Copia e Scarica lavorano sul testo nell'area di testo; entrambi avvengono localmente senza coinvolgimento del server. Lo strumento stesso non trasmette mai il tuo audio o trascritto da nessuna parte; l'unica attività di rete è quella che il browser fa internamente per comunicare con il servizio vocale di Google o Microsoft (o nessuna, su Safari). Il tuo trascritto non viene mai memorizzato: ricarica la pagina e sparisce, a meno che tu non l'abbia copiato o scaricato prima.

Breve storia del riconoscimento vocale

Flussi di lavoro reali

Trappole comuni e cosa significano

Privacy: la gestione dell'audio differisce per browser

Diversamente dalla maggior parte degli strumenti su questo sito che girano interamente lato client, le proprietà di privacy della Web Speech API dipendono da quale browser usi. Chrome ed Edge trasmettono l'audio del tuo microfono ai servizi cloud di riconoscimento vocale di Google e Microsoft. Entrambe le aziende affermano di non memorizzare l'audio a lungo termine per query di riconoscimento vocale (al contrario dei profili vocali addestrati dall'utente), ma l'audio lascia il tuo dispositivo, attraversa le loro reti ed è elaborato sui loro server. Safari su iOS 17+ e macOS Sonoma+ esegue il riconoscimento vocale interamente sul dispositivo usando l'ASR on-device di Apple, così il tuo audio non lascia mai il tuo Mac o iPhone. Versioni più vecchie di Safari e altri browser Apple potrebbero differire.

Absolutool stesso non riceve nulla. La pagina chiama l'API vocale del browser, il browser gestisce l'audio (o sul dispositivo o tramite il servizio cloud del suo vendor) e solo il testo del trascritto risultante torna nella pagina. Lo strumento poi mostra il testo e ti lascia copiarlo o scaricarlo; nessuna chiamata server è fatta dalla pagina stessa. Per utenti che gestiscono contenuti riservati, l'approccio raccomandato è: (1) usare Safari su un dispositivo Apple recente per l'elaborazione sul dispositivo, o (2) usare uno strumento offline dedicato come Whisper in locale, o (3) accettare che Chrome ed Edge instradino l'audio attraverso Google/Microsoft e usarli solo per contenuti non sensibili.

Quando un altro strumento è la scelta giusta

Altre domande frequenti

Perché il riconoscimento si ferma dopo un minuto?

Chrome ed Edge hanno timeout integrati che terminano le sessioni di riconoscimento Web Speech dopo circa 30-60 secondi, intesi a risparmiare banda e prevenire registrazione indefinita accidentale. Abilita la Modalità Continua nello strumento per riavviare automaticamente il riconoscimento quando questo accade. La modalità continua introduce brevi pause tra sessioni (tipicamente meno di un secondo), che possono risultare in parole mancate occasionali nei punti di giunzione. Safari gestisce sessioni più lunghe in modo più aggraziato senza timeout.

Perché l'accuratezza è più bassa di quanto mi aspettassi?

Tre fattori: (1) Il tuo accento potrebbe differire dai dati di addestramento; considera di provare una variante linguistica più vicina (ad esempio, en-IN per inglese indiano, en-AU per australiano). (2) Rumore di fondo, distanza dal microfono e qualità audio contano; stanza silenziosa e microfono ravvicinato producono 95%+ di accuratezza, mentre ambiente rumoroso e microfono distante scendono al 70% o meno. (3) Vocabolario specializzato (termini tecnici, nomi propri, marchi) è più difficile del parlato generale; per dettatura professionale ad alta accuratezza, l'addestramento del parlante di Dragon e il vocabolario personalizzato valgono il costo.

Posso dettare la punteggiatura con la voce?

Non in questo strumento. La Web Speech API non interpreta comandi vocali per la punteggiatura; dire punto inserisce la parola punto, non un segno di .. Alcuni strumenti di dettatura dedicati (Dragon, Apple Dictation, Windows Voice Access) riconoscono comandi di punteggiatura parlati. Per la dettatura basata su browser, il flusso tipico è: detta le parole, poi aggiungi la punteggiatura in una fase di editing con la tastiera. I modelli moderni long-form (Whisper) spesso aggiungono punteggiatura automaticamente in base ai pattern del parlato.

Funziona su iPhone?

Sì, su iOS 14.5 e successivi tramite Safari. iOS 17 ha portato il riconoscimento vocale sul dispositivo attraverso l'implementazione della Web Speech API di Safari, così il tuo audio non lascia mai il tuo iPhone. Per dettatura sostenuta su iPhone o iPad, puoi anche usare la Dettatura iOS a livello di sistema (tocca l'icona del microfono sulla tastiera), che funziona in qualsiasi campo di testo attraverso l'OS.

Perché Firefox non lo supporta?

Mozilla non ha implementato la Web Speech API in Firefox, principalmente per preoccupazioni di privacy con il modello di routing cloud usato da Chrome ed Edge, e per la complessità ingegneristica di implementare un'alternativa che preservi la privacy. Gli utenti Firefox sul bug tracker di Mozilla hanno richiesto il supporto vocale per anni; la posizione ufficiale di Mozilla è che il riconoscimento vocale locale significativo richiede risorse significative e non l'hanno prioritizzato. Per ora, gli utenti Firefox che cercano input vocale dovrebbero usare Chrome, Edge, Safari o una soluzione a livello di sistema come la dettatura OS.

Posso trascrivere un file audio pre-registrato?

Non direttamente. La Web Speech API accetta solo input dal microfono dal vivo, non upload di file. Per trascrivere un file registrato, la soluzione alternativa è riprodurre il file audio attraverso gli altoparlanti del tuo computer (o usare software di routing audio come Soundflower o BlackHole) mentre questo strumento ascolta tramite il microfono. Questo perde un po' di accuratezza per la distorsione acustica. Per trascrizione di alta qualità di audio registrato, usa uno strumento dedicato: Whisper (offline, gratuito), Otter.ai, o un servizio di trascrizione come Rev. Per trascrizione informale occasionale, il trucco riproduzione-attraverso-microfono funziona.

Strumenti correlati