Trascrizione gratuita da video a testo

Trascrivi il parlato di un file video in testo tramite il riconoscimento vocale del browser. Funziona con MP4, WebM, MOV e altro.

Il tuo file video resta sul tuo dispositivo
Rilascia qui un file video o clicca per sfogliare

MP4, WebM, MOV, OGG, AVI

Cosa fa davvero la trascrizione vocale da video

Trascrivere un video significa trasformare la forma d'onda audio registrata in testo. Un motore di riconoscimento vocale svolge tre compiti contemporaneamente: modellazione acustica (mappatura delle frequenze sonore in fonemi, le unità di suono più piccole di una lingua), modellazione linguistica (decisione su quali sequenze di fonemi formano parole probabili e quali sequenze di parole formano frasi probabili nella lingua scelta) e punteggiatura e maiuscole (inserimento di virgole, punti e maiuscole dove opportuno). I motori moderni usano reti neurali (modelli acustici addestrati su decine di migliaia di ore di parlato etichettato, modelli linguistici addestrati su miliardi di parole di testo). Il risultato è una trascrizione che si avvicina a quello che scriverebbe un umano, con qualità che dipende dalla nitidezza dell'audio, dalla corrispondenza dell'accento ai dati di addestramento e da quanti omofoni ambigui usa chi parla.

Questo strumento usa la Web Speech API integrata nel browser (in particolare l'interfaccia SpeechRecognition), lo standard W3C che espone il motore di riconoscimento del sistema operativo o del produttore del browser. Su Chrome ed Edge l'API tipicamente instrada l'audio attraverso il servizio cloud di riconoscimento vocale di Google per l'elaborazione (l'audio esce, la trascrizione torna); su Firefox e Safari il motore funziona localmente con caratteristiche di qualità leggermente diverse. La trascrizione torna come sequenza di risultati parziali (aggiornamenti man mano che viene processato più audio) e risultati finali (segmenti trascritti definitivi). Lo strumento mostra entrambi durante la trascrizione.

La selezione della lingua conta molto. Un motore di riconoscimento vocale ottimizzato per l'inglese trascriverà male un audio in francese o mandarino. Il menu a tendina espone oltre 20 locali linguistici (en-US, en-GB, es-ES, fr-FR, de-DE, ja-JP, zh-CN e altri). Scegli il locale che corrisponde al dialetto di chi parla per risultati migliori. I cambi di lingua a metà clip (un singolo video con più lingue) tipicamente danno risultati scadenti perché il motore si impegna su un modello acustico e linguistico per l'intera sessione.

Come funziona questo strumento sotto il cofano

Quando trascini un video, il browser lo carica in un HTMLVideoElement tramite URL.createObjectURL() che mantiene il file locale. La riproduzione è inizialmente in pausa così puoi scegliere la lingua e cliccare Avvia.

Cliccando Avvia, lo strumento chiama new SpeechRecognition() (o webkitSpeechRecognition su Chrome legacy), imposta recognition.continuous = true e recognition.interimResults = true, imposta la lingua sul locale selezionato e chiama recognition.start() mentre contemporaneamente riproduce il video con il suo audio instradato nella pipeline di input audio del browser. Il motore di riconoscimento consuma l'audio a blocchi ed emette eventi result mentre trascrive.

Ogni evento result trasporta un array di alternative classificate per confidenza. Lo strumento prende l'alternativa migliore per ogni risultato finale e la accoda alla casella di trascrizione modificabile. I risultati parziali (ancora in fase di affinamento) vengono mostrati in testo più chiaro. Quando il video termina o clicchi Stop, recognition.stop() finalizza la sessione. Le opzioni di esportazione scrivono la trascrizione come testo semplice (.txt) o con timestamp sintetici come sottotitoli SRT o VTT, tutti costruiti in memoria e offerti tramite download blob.

Breve storia del riconoscimento vocale

Come funziona

  1. Carica un video: seleziona un file video dal tuo dispositivo o incolla un URL video.
  2. Scegli la lingua: seleziona la lingua parlata nel video per una migliore precisione di trascrizione.
  3. Trascrivi: la traccia audio viene estratta ed elaborata dal motore di riconoscimento vocale per produrre una trascrizione.
  4. Modifica ed esporta: rileggi e correggi la trascrizione, poi copiala o scaricala in .txt o in file di sottotitoli .srt.

Perché usare video → testo?

Trascrivere un video in testo migliora l'accessibilità (sottotitoli per persone sorde e ipoudenti), il SEO (contenuto ricercabile derivato dal video) e il riutilizzo (trasformare un webinar in un articolo di blog o in materiale didattico). Creare una trascrizione manualmente richiede da 4 a 6 ore per ogni ora di video. La trascrizione automatizzata con uno strumento basato sul browser riduce considerevolmente questo tempo preservando al contempo la privacy, il video non lascia mai il tuo dispositivo. Le trascrizioni sono utili anche per sfogliare contenuti, creare sottotitoli, generare riassunti video e rispondere ai requisiti di conformità in materia di sottotitoli.

Formati di output

Flussi di trascrizione nel mondo reale

Insidie comuni e cosa significano

Privacy: sfumata

Questo strumento è più sfumato di altri strumenti su questo sito, quindi il quadro della privacy merita un'attenzione esplicita. Il file video stesso non lascia mai il tuo dispositivo: viene caricato come URL blob locale nel browser, riprodotto localmente e mai caricato. Fin qui tutto bene. Ma la Web Speech API è implementata diversamente nei vari browser. Su Chrome ed Edge nel 2026, l'API tipicamente invia audio decodificato al servizio cloud di riconoscimento vocale di Google per l'elaborazione della trascrizione; l'audio è cifrato in transito e secondo la politica di Google non usato per pubblicità o addestramento, ma lascia brevemente il tuo dispositivo. Su Firefox e Safari il riconoscimento di solito gira localmente senza audio che lascia il dispositivo, con accuratezza leggermente inferiore. Lo strumento non può controllare quale percorso prende il browser; è una decisione a livello di browser.

Per trascrizione verificabilmente locale su contenuti sensibili, due opzioni. Primo, usa Firefox o Safari per il riconoscimento locale nel browser (qualità inferiore ma completamente locale). Secondo, usa uno strumento basato su Whisper desktop o WebGPU che esegue il modello open source di OpenAI localmente; whisper.cpp, MacWhisper e un numero crescente di porting browser di Whisper offrono trascrizione di alta qualità completamente locale nel 2026. Per video di routine non sensibili (lezioni pubbliche, contenuti casuali), il percorso cloud assistito di Chrome ed Edge di questo strumento è comodo e di alta qualità.

Quando un altro strumento è la scelta giusta

Altre domande frequenti

Quale browser dà la migliore trascrizione?

Chrome ed Edge tipicamente hanno l'accuratezza più alta perché usano il motore vocale cloud di Google, addestrato sul dataset più grande e aggiornato regolarmente. Il compromesso è che l'audio lascia brevemente il tuo dispositivo. Firefox usa il riconoscimento locale per alcune lingue, con accuratezza leggermente inferiore ma località completa. L'implementazione di Safari è migliorata fino al 2025 ma storicamente aveva copertura linguistica limitata. Per comodità e accuratezza su contenuti non sensibili, Chrome. Per località verificabile, Firefox o Whisper locale.

Perché la trascrizione a volte si riavvia o ha lacune?

La Web Speech API limita le sessioni di riconoscimento individuali da 5 a 15 minuti a seconda del browser. Per video più lunghi, lo strumento riavvia in modo trasparente la sessione in background. Ogni riavvio introduce una breve lacuna (meno di un secondo) durante la quale una parola o due possono essere perse. Per video lunghi, aspettati una manciata di queste micro lacune e rivedi attentamente la trascrizione per riempirle o correggerle.

Posso generare sottotitoli SRT o VTT?

Sì. Usa il menu a tendina di download per scegliere il formato .srt o .vtt. Lo strumento genera timestamp sintetici basati sul conteggio delle parole e sulla velocità media di parlato (circa 150 parole al minuto). Per timing dei sottotitoli accurato al fotogramma, esegui l'SRT attraverso uno strumento come Subtitle Edit o Aegisub dopo, dove puoi modificare il timing per riga a orecchio. Oppure usa uno strumento basato su Whisper che fornisce timestamp precisi nativamente.

Quale tasso di errore sulle parole devo aspettarmi?

Per audio inglese chiaro con singolo parlante senza rumore di fondo su Chrome, aspettati dal 3 all'8% di tasso di errore sulle parole (così una trascrizione di 1000 parole ha da 30 a 80 parole sbagliate o mancanti). Per audio più rumoroso o parlanti non madrelingua, dal 10 al 25%. Per conversazione multi parlante aggrovigliata, oltre il 25%. Correggi sempre prima della pubblicazione; non spedire mai trascrizioni grezze come contenuto finale.

Esiste un equivalente per desktop o riga di comando?

Sì. OpenAI Whisper (il modello open source e CLI) è lo standard de facto per la trascrizione offline: whisper input.mp4 --language en --output_format srt. MacWhisper, BuzzWhisper e Whisper Notes lo avvolgono con UI amichevoli. whisper.cpp fornisce un'implementazione veloce C++. API cloud come Google Speech-to-Text, AWS Transcribe e Deepgram offrono accesso pay per minute a motori di livello superiore. Per elaborazione locale con qualità massima, Whisper è la risposta.

Il motore può gestire il code switching (più lingue)?

Male. La Web Speech API si impegna su un locale linguistico per sessione. Se chi parla mescola inglese e spagnolo, scegliere en-US trascrive correttamente l'inglese e storpia lo spagnolo (e viceversa). Per audio multilingue o code switched, Whisper large-v3 gestisce molte lingue in un singolo passaggio e rileva la lingua per segmento; è attualmente la migliore opzione per contenuti con code switching.

Strumenti correlati