Transcrição gratuita de vídeo para texto
Transcreva a fala de um arquivo de vídeo em texto via o reconhecimento de voz do navegador. Funciona com MP4, WebM, MOV e mais.
MP4, WebM, MOV, OGG, AVI
Observação : a qualidade do reconhecimento de voz depende do seu navegador e da clareza do áudio. Chrome e Edge geralmente dão os melhores resultados. A Web Speech API pode enviar dados de áudio ao fornecedor do navegador para processamento.
O que o reconhecimento de fala a partir de vídeo realmente faz
Transcrever vídeo significa transformar a forma de onda de áudio gravada em texto. Um motor de fala para texto executa três tarefas ao mesmo tempo: modelação acústica (mapear frequências de som para fonemas, as menores unidades de som de uma língua), modelação linguística (decidir quais sequências de fonemas formam palavras prováveis e quais sequências de palavras formam frases prováveis na língua escolhida), e pontuação e capitalização (inserir vírgulas, pontos e capitalizar onde apropriado). Os motores modernos usam redes neurais (modelos acústicos treinados em dezenas de milhares de horas de fala etiquetada, modelos de língua treinados em biliões de palavras de texto). O resultado é uma transcrição que aproxima o que um humano escreveria, com a qualidade a depender da clareza do áudio, da correspondência do sotaque aos dados de treino e de quantos homófonos ambíguos o orador usa.
Esta ferramenta usa a Web Speech API integrada do navegador (especificamente a interface SpeechRecognition), o padrão W3C que expõe o motor de reconhecimento do sistema operativo ou do fornecedor do navegador. No Chrome e Edge a API normalmente encaminha o áudio através do serviço cloud de speech-to-text do Google para processamento (o áudio sai, a transcrição volta); no Firefox e Safari o motor corre localmente com características de qualidade algo diferentes. A transcrição volta como uma sequência de resultados parciais (atualizações à medida que mais áudio é processado) e resultados finais (segmentos transcritos bloqueados). Esta ferramenta mostra ambos durante a transcrição.
A seleção de língua importa muito. Um motor de fala-para-texto sintonizado para inglês transcreverá mal áudio em francês ou mandarim. A lista pendente mostra mais de 20 locais de língua (en-US, en-GB, es-ES, fr-FR, de-DE, ja-JP, zh-CN e mais). Escolha o local que corresponde ao dialeto do seu orador para melhores resultados. As mudanças de língua a meio do clipe (um único vídeo com várias línguas) tipicamente dão maus resultados porque o motor compromete-se com um modelo acústico/linguístico para toda a sessão.
Como esta ferramenta funciona por dentro
Quando solta um vídeo, o navegador carrega-o num HTMLVideoElement via URL.createObjectURL() o que mantém o ficheiro local. A reprodução é pausada inicialmente para que possa escolher a língua e clicar em Iniciar.
Ao clicar em Iniciar, a ferramenta chama new SpeechRecognition() (ou webkitSpeechRecognition em Chrome legado), define recognition.continuous = true e recognition.interimResults = true, define a língua para o seu local selecionado e chama recognition.start() enquanto reproduz simultaneamente o vídeo com o seu áudio encaminhado para o pipeline de entrada de áudio do navegador. O motor de reconhecimento consome o áudio em blocos e emite eventos result à medida que transcreve.
Cada evento result transporta um array de alternativas classificadas por confiança. A ferramenta pega na alternativa principal para cada resultado final e anexa-a à caixa de transcrição editável. Os resultados intermédios (ainda a ser refinados) aparecem em texto mais claro. Quando o vídeo termina ou clica em Parar, recognition.stop() finaliza a sessão. As opções de exportação escrevem a transcrição como texto simples (.txt) ou com timestamps sintéticos como legendas SRT/VTT, todas construídas em memória e oferecidas via download blob.
Breve história do reconhecimento de fala
- Audrey, 1952.A Bell Labs constrói a Audrey, o primeiro sistema de reconhecimento automático de fala, capaz de reconhecer dígitos isolados pronunciados por um único orador treinado. O «vocabulário» era 0 a 9; a precisão degradava acentuadamente com diferentes oradores.
- Ditado DRAGON, anos 1990.A Dragon Systems lança o Dragon Dictate para consumidores (1990) e o Dragon NaturallySpeaking (1997), permitindo ditado contínuo com cerca de 80 a 95% de precisão após treino na voz do utilizador. Limitado a oradores únicos e ambientes silenciosos.
- Pesquisa por voz do Google, 2008.O Google lança a pesquisa por voz no iPhone, depois em todo o lado. O reconhecimento baseado na nuvem treinado em biliões de consultas por voz torna o reconhecimento independente do orador prático sem treino por utilizador. A era do «OK Google» e do «Hey Siri» começa.
- Revolução da aprendizagem profunda, 2012.Hinton et al. publicam artigos revolucionários a mostrar que as redes neurais profundas superam dramaticamente as abordagens tradicionais de Modelo de Markov Oculto para modelação acústica. As taxas de erro de palavra caem de 25 a 30% para menos de 10% em poucos anos.
- Web Speech API ratificada, 2014 a 2025.O W3C publica a especificação Web Speech API, expondo o reconhecimento de fala do fornecedor do navegador ao JavaScript. O Chrome lança a API primeiro, seguido por Edge, Safari e Firefox. As implementações variam em qualidade e postura de privacidade (nuvem vs processamento local).
- Whisper e ASR de código aberto, 2022 a 2026.A OpenAI lança o Whisper (2022), um modelo de reconhecimento automático de fala de código aberto com 1,5 mil milhões de parâmetros treinado em 680.000 horas de dados multilingues. O WebGPU traz o Whisper ao navegador em 2024 a 2026 com ports WASM whisper.cpp, oferecendo transcrição totalmente local de alta qualidade sem chamadas à nuvem.
Como funciona
- Importe um vídeo : selecione um arquivo de vídeo do seu dispositivo ou cole uma URL de vídeo.
- Escolha o idioma : selecione o idioma falado no vídeo para melhor precisão de transcrição.
- Transcreva : a faixa de áudio é extraída e processada pelo motor de reconhecimento de voz para produzir uma transcrição.
- Edite e exporte : revise e corrija a transcrição, depois copie-a ou baixe-a em .txt ou em arquivo de legendas .srt.
Por que usar vídeo → texto ?
Transcrever um vídeo em texto melhora a acessibilidade (legendas para surdos e pessoas com deficiência auditiva), o SEO (conteúdo pesquisável originado do vídeo) e o reuso (transformar um webinar em post de blog ou material de aula). Criar uma transcrição manualmente leva cerca de 4 a 6 horas por hora de vídeo. A transcrição automatizada com uma ferramenta baseada em navegador reduz esse tempo consideravelmente preservando a privacidade, o vídeo nunca sai do seu dispositivo. As transcrições também são úteis para percorrer conteúdo, criar legendas, gerar resumos de vídeo e atender às exigências de conformidade em legendagem.
Formatos de saída
- Texto simples (.txt): transcrição limpa para documentos e posts de blog
- Legendas SRT (.srt): arquivo de legendas com timestamps para players de vídeo
- Legendas VTT (.vtt): formato WebVTT para faixas de vídeo HTML5
- Privacidade em primeiro lugar: todo o processamento permanece no seu dispositivo
Fluxos de transcrição do mundo real
- Legendas para acessibilidade.Adicionar legendas a vídeo de redes sociais, material de formação ou gravações de webinars apoia espectadores surdos e com dificuldades auditivas e cumpre requisitos de conformidade ADA/WCAG para conteúdo público. Exporte a transcrição como SRT ou VTT, depois carregue junto ao ficheiro de vídeo na maioria dos leitores modernos (YouTube, Vimeo, mesmo leitores HTML5 personalizados).
- Reutilizar vídeo em posts de blogue.Uma entrevista de 30 minutos, podcast ou webinar transcrito dá-lhe 3.000 a 5.000 palavras de material fonte. Edite ligeiramente, adicione cabeçalhos e uma tese, e tem um post de blogue ou artigo do LinkedIn. A transcrição também ajuda o SEO porque os motores de busca podem indexar o conteúdo textual que de outra forma está fechado em vídeo.
- Arquivos pesquisáveis.Reuniões, palestras ou sessões de formação gravadas tornam-se pesquisáveis quando transcritas. Pode encontrar «a parte onde discutimos preços» em segundos em vez de fazer scrub por horas de vídeo. Guarde transcrições junto aos vídeos numa pasta de documentos ou base de conhecimento.
- Tirar citações para marketing.Testemunhos de clientes e entrevistas com especialistas filmados em vídeo podem ser explorados para frases citáveis. A transcrição faz emergir as palavras exatas; pode então desenhar um cartão de citação ou post social que referencie o vídeo para contexto. Mais rápido do que ver de novo para encontrar aquela boa frase.
- Auxílio à aprendizagem de línguas.Ver vídeo em língua estrangeira com uma transcrição gerada ajuda aprendizes a apanhar palavras que perderam. A precisão da transcrição não é perfeita, mas as palavras que ouve corretamente ajudam a ancorar aquelas que o motor entendeu mal. Para estudantes de línguas menos comuns, as exportações de transcrição podem alimentar ferramentas de cartões como Anki.
- Notas de reunião a partir de gravações.Reuniões gravadas no Zoom, Teams ou presenciais podem ser transcritas para notas de seguimento. Edite a transcrição para extrair itens de ação, decisões e compromissos de seguimento. Mais fácil do que tirar notas durante a reunião e mais preciso do que depender da memória depois.
Armadilhas comuns e o que significam
- Desencontro de sotaque e dialeto prejudica a precisão.Um motor de fala treinado principalmente em inglês dos EUA produzirá mais erros em inglês indiano, inglês escocês ou em oradores não nativos. A lista de locais permite-lhe escolher en-GB vs en-US, mas a cobertura de fortes sotaques regionais é desigual. Os oradores com sotaques neutros ou correspondentes aos dados de treino transcrevem com mais precisão.
- O ruído de fundo degrada rapidamente a qualidade.Ambiente de café, tráfego, ventiladores, música atrás do diálogo: cada um adiciona erros. O motor não consegue separar vozes do ruído como um humano focado consegue. Áudio fonte limpo (bom microfone, ruído mínimo) dá os melhores resultados. Para material ruidoso, espere taxas de erro de palavra de 10 a 25%.
- Múltiplos oradores a falar uns por cima dos outros.A Web Speech API não executa diarização de oradores (separar quem disse o quê). Entrevistas de duas pessoas onde os oradores não se sobrepõem transcrevem-se aceitavelmente como uma transcrição fluida. Painéis de três ou debates contenciosos produzem uma confusão. Para transcrições multi-orador precisas, use o Whisper ou um serviço pago como o Otter que inclui diarização.
- Os homófonos são adivinhados.«Conserto» vs «concerto», «meio» vs «meio-dia», nomes próprios vs palavras comuns: o motor adivinha pelo contexto. Muitas vezes adivinha bem. Por vezes escolhe o homófono errado e a sua transcrição precisa de revisão. Reveja e edite sempre as transcrições antes da publicação; não envie a saída bruta da máquina.
- Jargão técnico e nomes próprios confundem os motores.Termos específicos do domínio (médicos, legais, científicos, nomes de marcas, nomes de personagens) transcrevem-se muitas vezes mal porque não estavam bem representados nos dados de treino. Espere corrigir vocabulário especializado manualmente. Procurar-e-substituir é o seu amigo para mistranscrições sistemáticas.
- Vídeos longos chocam com os limites de sessão de reconhecimento.A Web Speech API limita as sessões individuais a 5 a 15 minutos dependendo do navegador. Para vídeos mais longos, a ferramenta reinicia a sessão de reconhecimento periodicamente (com uma breve interrupção), o que pode largar uma palavra ou duas a cada reinício. Para vídeos de uma hora, espere uma mão-cheia destas micro-interrupções; reveja a transcrição cuidadosamente.
Privacidade: matizada
Esta ferramenta tem mais nuances do que outras ferramentas neste site, portanto a imagem da privacidade merece atenção explícita. O próprio ficheiro de vídeo nunca sai do seu dispositivo: é carregado como um blob URL local no navegador, reproduzido localmente e nunca carregado. Até aí, bem. Mas a Web Speech API é implementada de forma diferente entre navegadores. No Chrome e Edge em 2026, a API normalmente envia áudio descodificado para o serviço cloud de speech-to-text do Google para processamento de transcrição; o áudio é cifrado em trânsito e segundo a política do Google não é usado para publicidade ou treino, mas sai brevemente do seu dispositivo. No Firefox e Safari o reconhecimento normalmente corre localmente sem áudio a sair do dispositivo, com precisão ligeiramente inferior. A ferramenta não pode controlar qual o caminho que o navegador toma; essa é uma decisão a nível do navegador.
Para transcrição verificavelmente local em conteúdo sensível, duas opções. Primeira, use Firefox ou Safari para reconhecimento local no navegador (qualidade inferior mas totalmente local). Segunda, use uma ferramenta de secretária ou WebGPU baseada em Whisper que execute o modelo de código aberto da OpenAI localmente; whisper.cpp, MacWhisper e números crescentes de ports do Whisper baseados em navegador oferecem transcrição totalmente local de alta qualidade a partir de 2026. Para vídeo de rotina não sensível (palestras públicas, conteúdo casual), o caminho assistido por nuvem Chrome/Edge desta ferramenta é conveniente e de alta qualidade.
Quando outra ferramenta é a escolha certa
- Conteúdo sensível que requer processamento totalmente local.Se o áudio que está a transcrever contém material abrangido por sigilo advogado-cliente, informação médica, estratégia interna da empresa ou outro conteúdo que não pode sair do seu dispositivo sob nenhuma circunstância, use uma ferramenta local baseada em Whisper (MacWhisper, whisper.cpp, etc.) em vez da Web Speech API em navegadores que encaminham para a nuvem.
- Conversações multi-orador que requerem diarização.Etiquetas de orador («Alice:», «Bob:») requerem diarização, que a Web Speech API não fornece. Use o Otter.ai, Rev, Descript ou ferramentas baseadas em Whisper com diarização pyannote. Vale o custo por minuto para podcasts, entrevistas, depoimentos.
- Máxima precisão em conteúdo técnico.Motores de fala especializados sintonizados para domínios médicos, legais ou científicos (Nuance Dragon Medical, Lexile, Verbit) têm taxas de erro muito mais baixas em jargão. Para transcrição crítica onde os erros custam dinheiro, os serviços especializados pagos batem as ferramentas gratuitas de propósito geral.
- Conteúdo de formato muito longo (horas).Para transcrição de várias horas (conferências completas, reuniões de dia inteiro, processos legais), o upload em lote para um serviço pago é mais fiável do que confiar em limites de sessão do navegador e reinícios ad-hoc. Otter, Rev, Trint, Descript todos lidam com conteúdo de uma hora ou mais sem as quebras de sessão que esta ferramenta encontra.
Outras perguntas frequentes
Qual navegador dá a melhor transcrição?
Chrome e Edge tipicamente têm a maior precisão porque usam o motor de fala em nuvem do Google, que é treinado no maior dataset e atualizado regularmente. O trade-off é que o áudio sai brevemente do seu dispositivo. Firefox usa reconhecimento local para algumas línguas, com precisão algo inferior mas localidade completa. A implementação do Safari melhorou até 2025, mas historicamente tinha cobertura de línguas limitada. Para conveniência e precisão em conteúdo não sensível, Chrome. Para localidade verificável, Firefox ou Whisper local.
Porque é que a transcrição às vezes reinicia ou tem lacunas?
A Web Speech API limita as sessões individuais de reconhecimento a 5 a 15 minutos dependendo do navegador. Para vídeos mais longos, a ferramenta reinicia a sessão em segundo plano de forma transparente. Cada reinício introduz uma breve lacuna (menos de um segundo) durante a qual uma palavra ou duas podem ser perdidas. Para vídeos longos, espere algumas destas micro-interrupções e reveja a transcrição cuidadosamente para preencher ou corrigir.
Posso gerar legendas SRT ou VTT?
Sim. Use a lista pendente de download para escolher o formato .srt ou .vtt. A ferramenta gera timestamps sintéticos baseados na contagem de palavras e velocidade média de fala (cerca de 150 palavras por minuto). Para tempo de legenda preciso ao quadro, passe o SRT por uma ferramenta como Subtitle Edit ou Aegisub depois, onde pode ajustar o tempo por linha de ouvido. Ou use uma ferramenta baseada em Whisper que fornece timestamps precisos nativamente.
Que taxa de erro de palavra devo esperar?
Para áudio de inglês de orador único claro sem ruído de fundo no Chrome, espere 3 a 8% de taxa de erro de palavra (portanto uma transcrição de 1000 palavras tem 30 a 80 palavras erradas ou em falta). Para áudio mais ruidoso ou oradores não nativos, 10 a 25%. Para conversação multi-orador emaranhada, 25%+. Reveja sempre antes da publicação; nunca envie transcrições brutas como conteúdo final.
Existe um equivalente de secretária ou linha de comando?
Sim. O OpenAI Whisper (o modelo de código aberto e a CLI) é o padrão de facto para transcrição offline: whisper input.mp4 --language en --output_format srt. MacWhisper, BuzzWhisper e Whisper Notes envolvem-no com UIs amigáveis. whisper.cpp fornece uma implementação C++ rápida. APIs em nuvem como Google Speech-to-Text, AWS Transcribe e Deepgram oferecem acesso pago por minuto a motores de nível superior. Para processamento local com máxima qualidade, Whisper é a resposta.
O motor consegue lidar com code-switching (várias línguas)?
Mal. A Web Speech API compromete-se com um local de língua por sessão. Se o seu orador mistura inglês e espanhol, escolher en-US transcreve o inglês corretamente e estraga o espanhol (e vice-versa). Para áudio multilingue ou com code-switching, o Whisper large-v3 trata muitas línguas numa única passagem e deteta a língua por segmento; essa é atualmente a melhor opção para conteúdo com code-switching.