Reconhecimento de voz grátis online

Converta sua voz em texto instantaneamente. Sem uploads, sem cadastro, sem contas - apenas fale e transcreva.

🔒 Usa o reconhecimento de fala integrado ao seu navegador
Contagem de palavras: 0
Nota: Esta ferramenta requer um navegador moderno com suporte a reconhecimento de voz (Chrome, Edge, Safari, Opera). O acesso ao microfone é necessário e será usado apenas durante sua sessão de gravação.

Como funciona

  1. Permitir acesso ao microfoneConceda permissão para usar seu microfone quando o navegador solicitar.
  2. Iniciar ditadoClique em Iniciar gravação e fale claramente para ver suas palavras transcritas ao vivo.
  3. Editar a transcriçãoRevise e ajuste o texto transcrito diretamente na área de texto editável.
  4. Copiar ou baixarCopie o texto para a área de transferência ou baixe-o como arquivo TXT.

Por que usar reconhecimento de voz?

O ditado por voz é de 3 a 4 vezes mais rápido que digitar, tornando-o uma excelente ferramenta de produtividade. Usando a Web Speech API integrada ao seu navegador, você pode ditar e-mails, notas, posts de blog ou relatórios sem instalar nenhum software. Também é uma ótima ferramenta de acessibilidade para pessoas com dificuldades de digitação ou que preferem entrada por voz.

Recursos

O que o reconhecimento de voz no navegador realmente faz

O reconhecimento de voz (também chamado Automatic Speech Recognition, ASR) converte áudio falado em texto escrito. Os sistemas ASR modernos combinam um modelo acústico (como os sons mapeiam para fonemas), um modelo de linguagem (como palavras e frases vão juntas na linguagem real) e um decodificador que encontra a sequência de palavras mais provável dado o áudio. A revolução dos anos 2010 foi o aprendizado profundo: as redes neurais substituíram os Modelos de Markov Ocultos anteriores para modelagem acústica e de linguagem, elevando a precisão de aproximadamente 80% na fala limpa para 95%+ em áudio cooperativo de um único falante. Em 2022, o Whisper da OpenAI demonstrou que um único modelo multilíngue podia igualar ou superar sistemas especializados em 99 idiomas.

Esta ferramenta usa a API Web Speech do navegador, o padrão W3C para ASR no navegador introduzido no Chrome 25 (2013) e gradualmente adicionado ao Edge, Safari e à maioria dos navegadores Chromium. A API expõe um objeto SpeechRecognition que transmite o áudio do microfone para qualquer serviço de voz que o navegador implemente: Chrome e Edge encaminham o áudio para os serviços de voz em nuvem do Google e da Microsoft respectivamente, enquanto Safari no iOS 17+ e macOS Sonoma+ executa o reconhecimento no dispositivo. O Firefox não implementa a API Web Speech de forma alguma. Essa distinção de privacidade importa: a ferramenta em si roda no seu navegador e nunca vê seu áudio, mas Chrome e Edge transmitem áudio para os servidores Google/Microsoft para processamento.

Para a maioria dos usuários, o compromisso versus digitação é dramático. A velocidade média de digitação para trabalhadores de escritório é de 40 a 60 palavras por minuto; a fala média é de 130 a 150 palavras por minuto. O ditado por voz é 2x a 3x mais rápido para obter o texto inicial, com a ressalva de que a edição posterior geralmente ainda é digitação. A entrada por voz também importa para a acessibilidade: usuários com deficiências motoras, lesões por esforço repetitivo ou lesões temporárias podem produzir texto por voz quando digitar é impraticável. Para aprendizes de idiomas, ouvir se o sistema reconheceu corretamente sua fala fornece feedback sobre pronúncia. Para captura de reuniões, transcrições em tempo real ajudam participantes e colegas ausentes.

Como esta ferramenta funciona nos bastidores

Quando você clica em «Começar Gravação», a página cria um objeto SpeechRecognition (ou webkitSpeechRecognition no Chrome mais antigo) e chama start(). O navegador solicita permissão de microfone se não foi concedida anteriormente, depois começa a transmitir o áudio capturado ao serviço de voz do sistema. A tag de idioma que você selecionou (por exemplo en-US, fr-FR, zh-CN) é passada ao serviço para que ele carregue os modelos acústico e de linguagem apropriados.

O navegador entrega dois tipos de resultados à página: resultados provisórios (melhores suposições parciais, atualizadas 5 a 20 vezes por segundo conforme novo áudio chega) e resultados finais (transcrição travada de um enunciado completo, tipicamente emitida quando o falante faz uma pausa por um momento). A área de texto da ferramenta exibe os resultados provisórios em um estilo mais claro e trava os resultados finais conforme chegam. O contador de palavras atualiza apenas a partir dos resultados finais, então não pisca quando as suposições provisórias mudam. O modo contínuo (uma opção de caixa de seleção) reinicia automaticamente a sessão de reconhecimento se o navegador a terminar após um silêncio longo, o que é comum no Chrome mas raro no Safari.

Depois que você para, a transcrição permanece na área de texto, totalmente editável. Os botões Copiar e Baixar funcionam no texto na área de texto; ambos acontecem localmente sem envolvimento do servidor. A ferramenta em si nunca transmite seu áudio ou transcrição para lugar nenhum; a única atividade de rede é o que o navegador faz internamente para se comunicar com o serviço de voz do Google ou da Microsoft (ou nenhuma, no Safari). Sua transcrição nunca é armazenada: atualize a página e ela se vai a menos que você a tenha copiado ou baixado primeiro.

Breve história do reconhecimento de voz

Fluxos do mundo real

Armadilhas comuns e o que significam

Privacidade: o manejo de áudio difere por navegador

Diferente da maioria das ferramentas neste site que rodam inteiramente do lado do cliente, as propriedades de privacidade da API Web Speech dependem de qual navegador você usa. Chrome e Edge transmitem seu áudio de microfone aos serviços de reconhecimento de voz em nuvem do Google e da Microsoft. Ambas as empresas declaram que não armazenam o áudio a longo prazo para consultas de reconhecimento de voz (em oposição a perfis de voz treinados pelo usuário), mas o áudio sai do seu dispositivo, atravessa suas redes e é processado em seus servidores. Safari no iOS 17+ e macOS Sonoma+ roda o reconhecimento de voz inteiramente no dispositivo usando o ASR no dispositivo da Apple, então seu áudio nunca sai do seu Mac ou iPhone. Versões mais antigas do Safari e outros navegadores Apple podem diferir.

O Absolutool em si não recebe nada. A página chama a API de voz do navegador, o navegador lida com o áudio (seja no dispositivo ou via o serviço em nuvem de seu fornecedor) e apenas o texto de transcrição resultante volta à página. A ferramenta então exibe o texto e permite que você copie ou baixe; nenhuma chamada de servidor é feita pela página em si. Para usuários lidando com conteúdo confidencial, a abordagem recomendada é: (1) use Safari em um dispositivo Apple recente para processamento no dispositivo, ou (2) use uma ferramenta offline dedicada como Whisper rodando localmente, ou (3) aceite que Chrome e Edge encaminham áudio através de Google/Microsoft e use-os apenas para conteúdo não sensível.

Quando outra ferramenta é a escolha certa

Mais perguntas frequentes

Por que o reconhecimento para depois de um minuto?

Chrome e Edge têm timeouts embutidos que encerram sessões de Web Speech após cerca de 30 a 60 segundos, destinados a economizar largura de banda e evitar gravação indefinida acidental. Habilite o Modo Contínuo na ferramenta para reiniciar automaticamente o reconhecimento quando isso acontecer. O modo contínuo introduz breves pausas entre sessões (tipicamente menos de um segundo), o que pode resultar em palavras ocasionalmente perdidas nas costuras. Safari lida com sessões mais longas com mais graça sem timeouts.

Por que a precisão é mais baixa que eu esperava?

Três fatores: (1) Seu sotaque pode diferir dos dados de treinamento; considere tentar uma variante de idioma mais próxima (por exemplo, en-IN para inglês indiano, en-AU para australiano). (2) Ruído de fundo, distância do microfone e qualidade do áudio importam; sala silenciosa e microfone próximo produzem precisão de 95%+, enquanto ambiente barulhento e microfone distante caem para 70% ou menos. (3) Vocabulário especializado (termos técnicos, nomes próprios, nomes de marca) é mais difícil que a fala geral; para ditado profissional de alta precisão, o treinamento de falante e vocabulário personalizado do Dragon valem o custo.

Posso ditar pontuação por voz?

Nesta ferramenta não. A API Web Speech não interpreta comandos de voz para pontuação; dizer «ponto» insere a palavra «ponto», não uma marca «.». Algumas ferramentas de ditado dedicadas (Dragon, Apple Dictation, Windows Voice Access) reconhecem comandos de pontuação falados. Para ditado baseado em navegador, o fluxo típico é: ditar as palavras, depois adicionar pontuação em uma passagem de edição com o teclado. Modelos modernos de forma longa (Whisper) muitas vezes adicionam pontuação automaticamente com base em padrões de fala.

Isso funciona no iPhone?

Sim, no iOS 14.5 e posterior via Safari. iOS 17 trouxe reconhecimento de voz no dispositivo através da implementação da API Web Speech do Safari, então seu áudio nunca sai do seu iPhone. Para ditado sustentado no iPhone ou iPad, você também pode usar o Ditado do iOS em nível do sistema (toque o ícone de microfone no teclado), que funciona em qualquer campo de texto através do SO.

Por que o Firefox não suporta isto?

A Mozilla não implementou a API Web Speech no Firefox, principalmente devido a preocupações de privacidade com o modelo de roteamento em nuvem usado por Chrome e Edge, e a complexidade de engenharia de implementar uma alternativa preservadora de privacidade. Usuários do Firefox no rastreador de bugs da Mozilla solicitaram suporte de voz por anos; a posição oficial da Mozilla é que o reconhecimento de voz local significativo requer recursos significativos e eles não o priorizaram. Por enquanto, usuários do Firefox buscando entrada por voz devem usar Chrome, Edge, Safari ou uma solução a nível do sistema como o ditado do SO.

Posso transcrever um arquivo de áudio pré-gravado?

Não diretamente. A API Web Speech só aceita entrada ao vivo de microfone, não uploads de arquivos. Para transcrever um arquivo gravado, a solução alternativa é reproduzir o arquivo de áudio através dos alto-falantes do seu computador (ou usar software de roteamento de áudio como Soundflower ou BlackHole) enquanto esta ferramenta escuta via o microfone. Isso perde alguma precisão devido à distorção acústica. Para transcrição de alta qualidade de áudio gravado, use uma ferramenta dedicada: Whisper (offline, gratuito), Otter.ai ou um serviço de transcrição como Rev. Para transcrição informal ocasional, o truque de reprodução-pelo-microfone funciona.

Ferramentas relacionadas