Transcrição gratuita de vídeo para texto

Transcreva a fala de um arquivo de vídeo em texto via o reconhecimento de voz do navegador. Funciona com MP4, WebM, MOV e mais.

Seu arquivo de vídeo permanece no seu dispositivo
Solte um arquivo de vídeo aqui ou clique para navegar

MP4, WebM, MOV, OGG, AVI

O que o reconhecimento de fala a partir de vídeo realmente faz

Transcrever vídeo significa transformar a forma de onda de áudio gravada em texto. Um motor de fala para texto executa três tarefas ao mesmo tempo: modelação acústica (mapear frequências de som para fonemas, as menores unidades de som de uma língua), modelação linguística (decidir quais sequências de fonemas formam palavras prováveis e quais sequências de palavras formam frases prováveis na língua escolhida), e pontuação e capitalização (inserir vírgulas, pontos e capitalizar onde apropriado). Os motores modernos usam redes neurais (modelos acústicos treinados em dezenas de milhares de horas de fala etiquetada, modelos de língua treinados em biliões de palavras de texto). O resultado é uma transcrição que aproxima o que um humano escreveria, com a qualidade a depender da clareza do áudio, da correspondência do sotaque aos dados de treino e de quantos homófonos ambíguos o orador usa.

Esta ferramenta usa a Web Speech API integrada do navegador (especificamente a interface SpeechRecognition), o padrão W3C que expõe o motor de reconhecimento do sistema operativo ou do fornecedor do navegador. No Chrome e Edge a API normalmente encaminha o áudio através do serviço cloud de speech-to-text do Google para processamento (o áudio sai, a transcrição volta); no Firefox e Safari o motor corre localmente com características de qualidade algo diferentes. A transcrição volta como uma sequência de resultados parciais (atualizações à medida que mais áudio é processado) e resultados finais (segmentos transcritos bloqueados). Esta ferramenta mostra ambos durante a transcrição.

A seleção de língua importa muito. Um motor de fala-para-texto sintonizado para inglês transcreverá mal áudio em francês ou mandarim. A lista pendente mostra mais de 20 locais de língua (en-US, en-GB, es-ES, fr-FR, de-DE, ja-JP, zh-CN e mais). Escolha o local que corresponde ao dialeto do seu orador para melhores resultados. As mudanças de língua a meio do clipe (um único vídeo com várias línguas) tipicamente dão maus resultados porque o motor compromete-se com um modelo acústico/linguístico para toda a sessão.

Como esta ferramenta funciona por dentro

Quando solta um vídeo, o navegador carrega-o num HTMLVideoElement via URL.createObjectURL() o que mantém o ficheiro local. A reprodução é pausada inicialmente para que possa escolher a língua e clicar em Iniciar.

Ao clicar em Iniciar, a ferramenta chama new SpeechRecognition() (ou webkitSpeechRecognition em Chrome legado), define recognition.continuous = true e recognition.interimResults = true, define a língua para o seu local selecionado e chama recognition.start() enquanto reproduz simultaneamente o vídeo com o seu áudio encaminhado para o pipeline de entrada de áudio do navegador. O motor de reconhecimento consome o áudio em blocos e emite eventos result à medida que transcreve.

Cada evento result transporta um array de alternativas classificadas por confiança. A ferramenta pega na alternativa principal para cada resultado final e anexa-a à caixa de transcrição editável. Os resultados intermédios (ainda a ser refinados) aparecem em texto mais claro. Quando o vídeo termina ou clica em Parar, recognition.stop() finaliza a sessão. As opções de exportação escrevem a transcrição como texto simples (.txt) ou com timestamps sintéticos como legendas SRT/VTT, todas construídas em memória e oferecidas via download blob.

Breve história do reconhecimento de fala

Como funciona

  1. Importe um vídeo : selecione um arquivo de vídeo do seu dispositivo ou cole uma URL de vídeo.
  2. Escolha o idioma : selecione o idioma falado no vídeo para melhor precisão de transcrição.
  3. Transcreva : a faixa de áudio é extraída e processada pelo motor de reconhecimento de voz para produzir uma transcrição.
  4. Edite e exporte : revise e corrija a transcrição, depois copie-a ou baixe-a em .txt ou em arquivo de legendas .srt.

Por que usar vídeo → texto ?

Transcrever um vídeo em texto melhora a acessibilidade (legendas para surdos e pessoas com deficiência auditiva), o SEO (conteúdo pesquisável originado do vídeo) e o reuso (transformar um webinar em post de blog ou material de aula). Criar uma transcrição manualmente leva cerca de 4 a 6 horas por hora de vídeo. A transcrição automatizada com uma ferramenta baseada em navegador reduz esse tempo consideravelmente preservando a privacidade, o vídeo nunca sai do seu dispositivo. As transcrições também são úteis para percorrer conteúdo, criar legendas, gerar resumos de vídeo e atender às exigências de conformidade em legendagem.

Formatos de saída

Fluxos de transcrição do mundo real

Armadilhas comuns e o que significam

Privacidade: matizada

Esta ferramenta tem mais nuances do que outras ferramentas neste site, portanto a imagem da privacidade merece atenção explícita. O próprio ficheiro de vídeo nunca sai do seu dispositivo: é carregado como um blob URL local no navegador, reproduzido localmente e nunca carregado. Até aí, bem. Mas a Web Speech API é implementada de forma diferente entre navegadores. No Chrome e Edge em 2026, a API normalmente envia áudio descodificado para o serviço cloud de speech-to-text do Google para processamento de transcrição; o áudio é cifrado em trânsito e segundo a política do Google não é usado para publicidade ou treino, mas sai brevemente do seu dispositivo. No Firefox e Safari o reconhecimento normalmente corre localmente sem áudio a sair do dispositivo, com precisão ligeiramente inferior. A ferramenta não pode controlar qual o caminho que o navegador toma; essa é uma decisão a nível do navegador.

Para transcrição verificavelmente local em conteúdo sensível, duas opções. Primeira, use Firefox ou Safari para reconhecimento local no navegador (qualidade inferior mas totalmente local). Segunda, use uma ferramenta de secretária ou WebGPU baseada em Whisper que execute o modelo de código aberto da OpenAI localmente; whisper.cpp, MacWhisper e números crescentes de ports do Whisper baseados em navegador oferecem transcrição totalmente local de alta qualidade a partir de 2026. Para vídeo de rotina não sensível (palestras públicas, conteúdo casual), o caminho assistido por nuvem Chrome/Edge desta ferramenta é conveniente e de alta qualidade.

Quando outra ferramenta é a escolha certa

Outras perguntas frequentes

Qual navegador dá a melhor transcrição?

Chrome e Edge tipicamente têm a maior precisão porque usam o motor de fala em nuvem do Google, que é treinado no maior dataset e atualizado regularmente. O trade-off é que o áudio sai brevemente do seu dispositivo. Firefox usa reconhecimento local para algumas línguas, com precisão algo inferior mas localidade completa. A implementação do Safari melhorou até 2025, mas historicamente tinha cobertura de línguas limitada. Para conveniência e precisão em conteúdo não sensível, Chrome. Para localidade verificável, Firefox ou Whisper local.

Porque é que a transcrição às vezes reinicia ou tem lacunas?

A Web Speech API limita as sessões individuais de reconhecimento a 5 a 15 minutos dependendo do navegador. Para vídeos mais longos, a ferramenta reinicia a sessão em segundo plano de forma transparente. Cada reinício introduz uma breve lacuna (menos de um segundo) durante a qual uma palavra ou duas podem ser perdidas. Para vídeos longos, espere algumas destas micro-interrupções e reveja a transcrição cuidadosamente para preencher ou corrigir.

Posso gerar legendas SRT ou VTT?

Sim. Use a lista pendente de download para escolher o formato .srt ou .vtt. A ferramenta gera timestamps sintéticos baseados na contagem de palavras e velocidade média de fala (cerca de 150 palavras por minuto). Para tempo de legenda preciso ao quadro, passe o SRT por uma ferramenta como Subtitle Edit ou Aegisub depois, onde pode ajustar o tempo por linha de ouvido. Ou use uma ferramenta baseada em Whisper que fornece timestamps precisos nativamente.

Que taxa de erro de palavra devo esperar?

Para áudio de inglês de orador único claro sem ruído de fundo no Chrome, espere 3 a 8% de taxa de erro de palavra (portanto uma transcrição de 1000 palavras tem 30 a 80 palavras erradas ou em falta). Para áudio mais ruidoso ou oradores não nativos, 10 a 25%. Para conversação multi-orador emaranhada, 25%+. Reveja sempre antes da publicação; nunca envie transcrições brutas como conteúdo final.

Existe um equivalente de secretária ou linha de comando?

Sim. O OpenAI Whisper (o modelo de código aberto e a CLI) é o padrão de facto para transcrição offline: whisper input.mp4 --language en --output_format srt. MacWhisper, BuzzWhisper e Whisper Notes envolvem-no com UIs amigáveis. whisper.cpp fornece uma implementação C++ rápida. APIs em nuvem como Google Speech-to-Text, AWS Transcribe e Deepgram oferecem acesso pago por minuto a motores de nível superior. Para processamento local com máxima qualidade, Whisper é a resposta.

O motor consegue lidar com code-switching (várias línguas)?

Mal. A Web Speech API compromete-se com um local de língua por sessão. Se o seu orador mistura inglês e espanhol, escolher en-US transcreve o inglês corretamente e estraga o espanhol (e vice-versa). Para áudio multilingue ou com code-switching, o Whisper large-v3 trata muitas línguas numa única passagem e deteta a língua por segmento; essa é atualmente a melhor opção para conteúdo com code-switching.

Ferramentas relacionadas