Trascrizione gratuita da video a testo
Trascrivi il parlato di un file video in testo tramite il riconoscimento vocale del browser. Funziona con MP4, WebM, MOV e altro.
MP4, WebM, MOV, OGG, AVI
Nota: la qualità del riconoscimento vocale dipende dal tuo browser e dalla chiarezza dell'audio. Chrome ed Edge generalmente danno i risultati migliori. La Web Speech API può inviare dati audio al fornitore del browser per l'elaborazione.
Cosa fa davvero la trascrizione vocale da video
Trascrivere un video significa trasformare la forma d'onda audio registrata in testo. Un motore di riconoscimento vocale svolge tre compiti contemporaneamente: modellazione acustica (mappatura delle frequenze sonore in fonemi, le unità di suono più piccole di una lingua), modellazione linguistica (decisione su quali sequenze di fonemi formano parole probabili e quali sequenze di parole formano frasi probabili nella lingua scelta) e punteggiatura e maiuscole (inserimento di virgole, punti e maiuscole dove opportuno). I motori moderni usano reti neurali (modelli acustici addestrati su decine di migliaia di ore di parlato etichettato, modelli linguistici addestrati su miliardi di parole di testo). Il risultato è una trascrizione che si avvicina a quello che scriverebbe un umano, con qualità che dipende dalla nitidezza dell'audio, dalla corrispondenza dell'accento ai dati di addestramento e da quanti omofoni ambigui usa chi parla.
Questo strumento usa la Web Speech API integrata nel browser (in particolare l'interfaccia SpeechRecognition), lo standard W3C che espone il motore di riconoscimento del sistema operativo o del produttore del browser. Su Chrome ed Edge l'API tipicamente instrada l'audio attraverso il servizio cloud di riconoscimento vocale di Google per l'elaborazione (l'audio esce, la trascrizione torna); su Firefox e Safari il motore funziona localmente con caratteristiche di qualità leggermente diverse. La trascrizione torna come sequenza di risultati parziali (aggiornamenti man mano che viene processato più audio) e risultati finali (segmenti trascritti definitivi). Lo strumento mostra entrambi durante la trascrizione.
La selezione della lingua conta molto. Un motore di riconoscimento vocale ottimizzato per l'inglese trascriverà male un audio in francese o mandarino. Il menu a tendina espone oltre 20 locali linguistici (en-US, en-GB, es-ES, fr-FR, de-DE, ja-JP, zh-CN e altri). Scegli il locale che corrisponde al dialetto di chi parla per risultati migliori. I cambi di lingua a metà clip (un singolo video con più lingue) tipicamente danno risultati scadenti perché il motore si impegna su un modello acustico e linguistico per l'intera sessione.
Come funziona questo strumento sotto il cofano
Quando trascini un video, il browser lo carica in un HTMLVideoElement tramite URL.createObjectURL() che mantiene il file locale. La riproduzione è inizialmente in pausa così puoi scegliere la lingua e cliccare Avvia.
Cliccando Avvia, lo strumento chiama new SpeechRecognition() (o webkitSpeechRecognition su Chrome legacy), imposta recognition.continuous = true e recognition.interimResults = true, imposta la lingua sul locale selezionato e chiama recognition.start() mentre contemporaneamente riproduce il video con il suo audio instradato nella pipeline di input audio del browser. Il motore di riconoscimento consuma l'audio a blocchi ed emette eventi result mentre trascrive.
Ogni evento result trasporta un array di alternative classificate per confidenza. Lo strumento prende l'alternativa migliore per ogni risultato finale e la accoda alla casella di trascrizione modificabile. I risultati parziali (ancora in fase di affinamento) vengono mostrati in testo più chiaro. Quando il video termina o clicchi Stop, recognition.stop() finalizza la sessione. Le opzioni di esportazione scrivono la trascrizione come testo semplice (.txt) o con timestamp sintetici come sottotitoli SRT o VTT, tutti costruiti in memoria e offerti tramite download blob.
Breve storia del riconoscimento vocale
- Audrey, 1952.I Bell Labs costruiscono Audrey, il primo sistema di riconoscimento vocale automatico, capace di riconoscere singole cifre pronunciate da un singolo parlante addestrato. Il "vocabolario" era da 0 a 9; l'accuratezza calava bruscamente con parlanti diversi.
- Dettatura DRAGON, anni 1990.Dragon Systems rilascia Dragon Dictate per consumatori (1990) e Dragon NaturallySpeaking (1997), permettendo la dettatura continua con circa l'80 a 95% di accuratezza dopo l'addestramento sulla voce dell'utente. Limitato a singoli parlanti e ambienti silenziosi.
- Google Voice Search, 2008.Google lancia la ricerca vocale su iPhone, poi ovunque. Il riconoscimento basato su cloud addestrato su miliardi di query vocali rende pratico il riconoscimento indipendente dal parlante senza addestramento per singolo utente. Inizia l'era di "OK Google" e "Hey Siri".
- Rivoluzione del deep learning, 2012.Hinton e altri pubblicano articoli rivoluzionari che mostrano come le reti neurali profonde superino drasticamente gli approcci tradizionali con modelli di Markov nascosti per la modellazione acustica. I tassi di errore sulle parole scendono dal 25 a 30% a meno del 10% in pochi anni.
- Ratifica della Web Speech API, 2014 a 2025.Il W3C pubblica la specifica Web Speech API, esponendo il riconoscimento vocale dei browser a JavaScript. Chrome rilascia l'API per primo, seguito da Edge, Safari e Firefox. Le implementazioni variano per qualità e postura sulla privacy (elaborazione cloud o locale).
- Whisper e ASR open source, 2022 a 2026.OpenAI rilascia Whisper (2022), un modello di riconoscimento vocale automatico open source da 1,5 miliardi di parametri addestrato su 680.000 ore di dati multilingue. WebGPU porta Whisper nel browser dal 2024 al 2026 con porting WASM di whisper.cpp, offrendo trascrizione di alta qualità completamente locale senza chiamate cloud.
Come funziona
- Carica un video: seleziona un file video dal tuo dispositivo o incolla un URL video.
- Scegli la lingua: seleziona la lingua parlata nel video per una migliore precisione di trascrizione.
- Trascrivi: la traccia audio viene estratta ed elaborata dal motore di riconoscimento vocale per produrre una trascrizione.
- Modifica ed esporta: rileggi e correggi la trascrizione, poi copiala o scaricala in .txt o in file di sottotitoli .srt.
Perché usare video → testo?
Trascrivere un video in testo migliora l'accessibilità (sottotitoli per persone sorde e ipoudenti), il SEO (contenuto ricercabile derivato dal video) e il riutilizzo (trasformare un webinar in un articolo di blog o in materiale didattico). Creare una trascrizione manualmente richiede da 4 a 6 ore per ogni ora di video. La trascrizione automatizzata con uno strumento basato sul browser riduce considerevolmente questo tempo preservando al contempo la privacy, il video non lascia mai il tuo dispositivo. Le trascrizioni sono utili anche per sfogliare contenuti, creare sottotitoli, generare riassunti video e rispondere ai requisiti di conformità in materia di sottotitoli.
Formati di output
- Testo semplice (.txt), trascrizione pulita per documenti e articoli di blog
- Sottotitoli SRT (.srt), file di sottotitoli con timestamp per lettori video
- Sottotitoli VTT (.vtt), formato WebVTT per le tracce video HTML5
- Privacy prima di tutto, tutta l'elaborazione resta sul tuo dispositivo
Flussi di trascrizione nel mondo reale
- Sottotitoli per l'accessibilità.Aggiungere sottotitoli a video sui social media, materiali formativi o registrazioni di webinar supporta gli spettatori sordi o con difficoltà uditive e soddisfa i requisiti di conformità ADA/WCAG per i contenuti pubblici. Esporta la trascrizione come SRT o VTT, poi caricala insieme al file video sulla maggior parte dei player moderni (YouTube, Vimeo, persino player HTML5 personalizzati).
- Riadattare i video in articoli di blog.Un'intervista, podcast o webinar di 30 minuti trascritto ti dà da 3.000 a 5.000 parole di materiale sorgente. Modifica leggermente, aggiungi titoli e una tesi, e hai un articolo di blog o un post LinkedIn. La trascrizione aiuta anche la SEO perché i motori di ricerca possono indicizzare il contenuto testuale altrimenti bloccato nel video.
- Archivi ricercabili.Riunioni registrate, lezioni o sessioni di formazione diventano ricercabili una volta trascritte. Puoi trovare "la parte in cui abbiamo discusso il prezzo" in pochi secondi invece di scorrere ore di video. Salva le trascrizioni accanto ai video in una cartella documenti o base di conoscenza.
- Estrazione di citazioni per il marketing.Testimonianze dei clienti e interviste con esperti girate come video possono essere setacciate per frasi citabili. La trascrizione fa emergere le parole esatte; puoi poi progettare una scheda citazione o un post social che faccia riferimento al video per il contesto. Più veloce di riguardare per trovare quella buona frase.
- Aiuto all'apprendimento delle lingue.Guardare video in lingua straniera con una trascrizione generata aiuta gli studenti a cogliere parole che hanno perso. L'accuratezza della trascrizione non è perfetta, ma le parole che senti correttamente aiutano ad ancorare quelle che il motore ha sbagliato. Per studenti di lingue meno comuni, le esportazioni delle trascrizioni possono essere passate a strumenti di flashcard come Anki.
- Appunti di riunioni dalle registrazioni.Riunioni Zoom, Teams o in presenza registrate possono essere trascritte per gli appunti di follow up. Modifica la trascrizione per estrarre azioni, decisioni e impegni di follow up. Più facile che prendere appunti durante la riunione e più accurato che affidarsi alla memoria dopo.
Insidie comuni e cosa significano
- Il disallineamento di accento e dialetto danneggia l'accuratezza.Un motore di riconoscimento vocale addestrato principalmente su inglese americano produrrà più errori su inglese indiano, inglese scozzese o parlanti non madrelingua. Il menu locale ti permette di scegliere en-GB o en-US, ma la copertura di accenti regionali forti è disomogenea. I parlanti con accenti neutri o corrispondenti ai dati di addestramento si trascrivono più accuratamente.
- Il rumore di fondo degrada rapidamente la qualità.Ambiente da caffè, traffico, ventilatori, musica dietro al dialogo: ognuno aggiunge errori. Il motore non può separare le voci dal rumore come fa un umano concentrato. Audio sorgente pulito (buon microfono, sfondo minimo) dà i migliori risultati. Per filmati rumorosi, aspettati tassi di errore sulle parole dal 10 al 25%.
- Più parlanti che si parlano sopra.La Web Speech API non esegue la diarizzazione del parlante (separare chi ha detto cosa). Le interviste a due persone in cui i parlanti non si sovrappongono si trascrivono accettabilmente come una trascrizione fluida. Tavole rotonde a tre o dibattiti accesi producono un groviglio. Per trascrizioni multi parlante accurate, usa Whisper o un servizio a pagamento come Otter che include la diarizzazione.
- Gli omofoni vengono indovinati."Their" vs "there" vs "they're", "to" vs "too" vs "two", nomi propri vs parole comuni: il motore indovina dal contesto. Spesso indovina bene. A volte sceglie l'omofono sbagliato e la tua trascrizione ha bisogno di correzione di bozze. Rivedi e modifica sempre le trascrizioni prima della pubblicazione; non spedire l'output grezzo della macchina.
- Gergo tecnico e nomi propri confondono i motori.Termini specifici del dominio (medico, legale, scientifico, nomi di marchi, nomi di personaggi) spesso si trascrivono male perché non erano ben rappresentati nei dati di addestramento. Aspettati di correggere manualmente il vocabolario specializzato. Cerca e sostituisci è tuo amico per trascrizioni errate sistematiche.
- I video lunghi raggiungono i limiti di sessione del riconoscimento.La Web Speech API limita le sessioni individuali da 5 a 15 minuti a seconda del browser. Per video più lunghi, lo strumento riavvia periodicamente la sessione di riconoscimento (con una breve pausa), il che può far cadere una parola o due a ogni riavvio. Per video di un'ora, aspettati una manciata di micro lacune; rivedi attentamente la trascrizione.
Privacy: sfumata
Questo strumento è più sfumato di altri strumenti su questo sito, quindi il quadro della privacy merita un'attenzione esplicita. Il file video stesso non lascia mai il tuo dispositivo: viene caricato come URL blob locale nel browser, riprodotto localmente e mai caricato. Fin qui tutto bene. Ma la Web Speech API è implementata diversamente nei vari browser. Su Chrome ed Edge nel 2026, l'API tipicamente invia audio decodificato al servizio cloud di riconoscimento vocale di Google per l'elaborazione della trascrizione; l'audio è cifrato in transito e secondo la politica di Google non usato per pubblicità o addestramento, ma lascia brevemente il tuo dispositivo. Su Firefox e Safari il riconoscimento di solito gira localmente senza audio che lascia il dispositivo, con accuratezza leggermente inferiore. Lo strumento non può controllare quale percorso prende il browser; è una decisione a livello di browser.
Per trascrizione verificabilmente locale su contenuti sensibili, due opzioni. Primo, usa Firefox o Safari per il riconoscimento locale nel browser (qualità inferiore ma completamente locale). Secondo, usa uno strumento basato su Whisper desktop o WebGPU che esegue il modello open source di OpenAI localmente; whisper.cpp, MacWhisper e un numero crescente di porting browser di Whisper offrono trascrizione di alta qualità completamente locale nel 2026. Per video di routine non sensibili (lezioni pubbliche, contenuti casuali), il percorso cloud assistito di Chrome ed Edge di questo strumento è comodo e di alta qualità.
Quando un altro strumento è la scelta giusta
- Contenuto sensibile che richiede elaborazione completamente locale.Se l'audio che stai trascrivendo contiene materiale coperto da segreto professionale avvocato cliente, informazioni mediche, strategia aziendale interna o altro contenuto che non deve lasciare il tuo dispositivo in nessuna circostanza, usa uno strumento locale basato su Whisper (MacWhisper, whisper.cpp, ecc.) invece della Web Speech API nei browser che instradano al cloud.
- Conversazioni multi parlante che richiedono diarizzazione.Le etichette del parlante ("Alice:", "Bob:") richiedono la diarizzazione, che la Web Speech API non fornisce. Usa Otter.ai, Rev, Descript o strumenti basati su Whisper con diarizzazione pyannote. Vale il costo al minuto per podcast, interviste, deposizioni.
- Massima accuratezza su contenuto tecnico.Motori vocali specializzati ottimizzati per domini medici, legali o scientifici (Nuance Dragon Medical, Lexile, Verbit) hanno tassi di errore molto più bassi sul gergo. Per trascrizione mission critical dove gli errori costano denaro, i servizi specializzati a pagamento battono gli strumenti gratuiti generici.
- Contenuto molto lungo (ore).Per trascrizione di più ore (intere conferenze, riunioni di una giornata, procedimenti legali), il caricamento in batch su un servizio a pagamento è più affidabile che affidarsi ai limiti di sessione del browser e ai riavvii improvvisati. Otter, Rev, Trint, Descript gestiscono tutti contenuti di un'ora o più senza le interruzioni di sessione che questo strumento incontra.
Altre domande frequenti
Quale browser dà la migliore trascrizione?
Chrome ed Edge tipicamente hanno l'accuratezza più alta perché usano il motore vocale cloud di Google, addestrato sul dataset più grande e aggiornato regolarmente. Il compromesso è che l'audio lascia brevemente il tuo dispositivo. Firefox usa il riconoscimento locale per alcune lingue, con accuratezza leggermente inferiore ma località completa. L'implementazione di Safari è migliorata fino al 2025 ma storicamente aveva copertura linguistica limitata. Per comodità e accuratezza su contenuti non sensibili, Chrome. Per località verificabile, Firefox o Whisper locale.
Perché la trascrizione a volte si riavvia o ha lacune?
La Web Speech API limita le sessioni di riconoscimento individuali da 5 a 15 minuti a seconda del browser. Per video più lunghi, lo strumento riavvia in modo trasparente la sessione in background. Ogni riavvio introduce una breve lacuna (meno di un secondo) durante la quale una parola o due possono essere perse. Per video lunghi, aspettati una manciata di queste micro lacune e rivedi attentamente la trascrizione per riempirle o correggerle.
Posso generare sottotitoli SRT o VTT?
Sì. Usa il menu a tendina di download per scegliere il formato .srt o .vtt. Lo strumento genera timestamp sintetici basati sul conteggio delle parole e sulla velocità media di parlato (circa 150 parole al minuto). Per timing dei sottotitoli accurato al fotogramma, esegui l'SRT attraverso uno strumento come Subtitle Edit o Aegisub dopo, dove puoi modificare il timing per riga a orecchio. Oppure usa uno strumento basato su Whisper che fornisce timestamp precisi nativamente.
Quale tasso di errore sulle parole devo aspettarmi?
Per audio inglese chiaro con singolo parlante senza rumore di fondo su Chrome, aspettati dal 3 all'8% di tasso di errore sulle parole (così una trascrizione di 1000 parole ha da 30 a 80 parole sbagliate o mancanti). Per audio più rumoroso o parlanti non madrelingua, dal 10 al 25%. Per conversazione multi parlante aggrovigliata, oltre il 25%. Correggi sempre prima della pubblicazione; non spedire mai trascrizioni grezze come contenuto finale.
Esiste un equivalente per desktop o riga di comando?
Sì. OpenAI Whisper (il modello open source e CLI) è lo standard de facto per la trascrizione offline: whisper input.mp4 --language en --output_format srt. MacWhisper, BuzzWhisper e Whisper Notes lo avvolgono con UI amichevoli. whisper.cpp fornisce un'implementazione veloce C++. API cloud come Google Speech-to-Text, AWS Transcribe e Deepgram offrono accesso pay per minute a motori di livello superiore. Per elaborazione locale con qualità massima, Whisper è la risposta.
Il motore può gestire il code switching (più lingue)?
Male. La Web Speech API si impegna su un locale linguistico per sessione. Se chi parla mescola inglese e spagnolo, scegliere en-US trascrive correttamente l'inglese e storpia lo spagnolo (e viceversa). Per audio multilingue o code switched, Whisper large-v3 gestisce molte lingue in un singolo passaggio e rileva la lingua per segmento; è attualmente la migliore opzione per contenuti con code switching.