Reconhecimento de voz grátis online
Converta sua voz em texto instantaneamente. Sem uploads, sem cadastro, sem contas - apenas fale e transcreva.
Como funciona
- Permitir acesso ao microfoneConceda permissão para usar seu microfone quando o navegador solicitar.
- Iniciar ditadoClique em Iniciar gravação e fale claramente para ver suas palavras transcritas ao vivo.
- Editar a transcriçãoRevise e ajuste o texto transcrito diretamente na área de texto editável.
- Copiar ou baixarCopie o texto para a área de transferência ou baixe-o como arquivo TXT.
Por que usar reconhecimento de voz?
O ditado por voz é de 3 a 4 vezes mais rápido que digitar, tornando-o uma excelente ferramenta de produtividade. Usando a Web Speech API integrada ao seu navegador, você pode ditar e-mails, notas, posts de blog ou relatórios sem instalar nenhum software. Também é uma ótima ferramenta de acessibilidade para pessoas com dificuldades de digitação ou que preferem entrada por voz.
Recursos
- Transcrição em tempo real, Veja suas palavras aparecerem enquanto você fala, com atualizações instantâneas.
- Suporte a múltiplos idiomas, Escolha entre mais de 30 idiomas e dialetos para reconhecimento preciso.
- Modo contínuo, O reconhecimento reinicia automaticamente para longas sessões de ditado.
- Privacidade em primeiro lugar, Todo o processamento acontece no seu navegador, nenhum áudio é enviado para nossos servidores.
- Saída editável, Corrija e refine sua transcrição diretamente antes de copiá-la ou baixá-la.
O que o reconhecimento de voz no navegador realmente faz
O reconhecimento de voz (também chamado Automatic Speech Recognition, ASR) converte áudio falado em texto escrito. Os sistemas ASR modernos combinam um modelo acústico (como os sons mapeiam para fonemas), um modelo de linguagem (como palavras e frases vão juntas na linguagem real) e um decodificador que encontra a sequência de palavras mais provável dado o áudio. A revolução dos anos 2010 foi o aprendizado profundo: as redes neurais substituíram os Modelos de Markov Ocultos anteriores para modelagem acústica e de linguagem, elevando a precisão de aproximadamente 80% na fala limpa para 95%+ em áudio cooperativo de um único falante. Em 2022, o Whisper da OpenAI demonstrou que um único modelo multilíngue podia igualar ou superar sistemas especializados em 99 idiomas.
Esta ferramenta usa a API Web Speech do navegador, o padrão W3C para ASR no navegador introduzido no Chrome 25 (2013) e gradualmente adicionado ao Edge, Safari e à maioria dos navegadores Chromium. A API expõe um objeto SpeechRecognition que transmite o áudio do microfone para qualquer serviço de voz que o navegador implemente: Chrome e Edge encaminham o áudio para os serviços de voz em nuvem do Google e da Microsoft respectivamente, enquanto Safari no iOS 17+ e macOS Sonoma+ executa o reconhecimento no dispositivo. O Firefox não implementa a API Web Speech de forma alguma. Essa distinção de privacidade importa: a ferramenta em si roda no seu navegador e nunca vê seu áudio, mas Chrome e Edge transmitem áudio para os servidores Google/Microsoft para processamento.
Para a maioria dos usuários, o compromisso versus digitação é dramático. A velocidade média de digitação para trabalhadores de escritório é de 40 a 60 palavras por minuto; a fala média é de 130 a 150 palavras por minuto. O ditado por voz é 2x a 3x mais rápido para obter o texto inicial, com a ressalva de que a edição posterior geralmente ainda é digitação. A entrada por voz também importa para a acessibilidade: usuários com deficiências motoras, lesões por esforço repetitivo ou lesões temporárias podem produzir texto por voz quando digitar é impraticável. Para aprendizes de idiomas, ouvir se o sistema reconheceu corretamente sua fala fornece feedback sobre pronúncia. Para captura de reuniões, transcrições em tempo real ajudam participantes e colegas ausentes.
Como esta ferramenta funciona nos bastidores
Quando você clica em «Começar Gravação», a página cria um objeto SpeechRecognition (ou webkitSpeechRecognition no Chrome mais antigo) e chama start(). O navegador solicita permissão de microfone se não foi concedida anteriormente, depois começa a transmitir o áudio capturado ao serviço de voz do sistema. A tag de idioma que você selecionou (por exemplo en-US, fr-FR, zh-CN) é passada ao serviço para que ele carregue os modelos acústico e de linguagem apropriados.
O navegador entrega dois tipos de resultados à página: resultados provisórios (melhores suposições parciais, atualizadas 5 a 20 vezes por segundo conforme novo áudio chega) e resultados finais (transcrição travada de um enunciado completo, tipicamente emitida quando o falante faz uma pausa por um momento). A área de texto da ferramenta exibe os resultados provisórios em um estilo mais claro e trava os resultados finais conforme chegam. O contador de palavras atualiza apenas a partir dos resultados finais, então não pisca quando as suposições provisórias mudam. O modo contínuo (uma opção de caixa de seleção) reinicia automaticamente a sessão de reconhecimento se o navegador a terminar após um silêncio longo, o que é comum no Chrome mas raro no Safari.
Depois que você para, a transcrição permanece na área de texto, totalmente editável. Os botões Copiar e Baixar funcionam no texto na área de texto; ambos acontecem localmente sem envolvimento do servidor. A ferramenta em si nunca transmite seu áudio ou transcrição para lugar nenhum; a única atividade de rede é o que o navegador faz internamente para se comunicar com o serviço de voz do Google ou da Microsoft (ou nenhuma, no Safari). Sua transcrição nunca é armazenada: atualize a página e ela se vai a menos que você a tenha copiado ou baixado primeiro.
Breve história do reconhecimento de voz
- Audrey, IBM 1952.Bell Labs constrói o primeiro sistema de reconhecimento de voz, «Audrey», que podia reconhecer dígitos falados 0 a 9 de um único falante treinado. O sistema enchia uma sala e levava vários segundos por dígito. IBM segue em 1962 com o Shoebox, reconhecendo 16 palavras inglesas faladas.
- Modelos de Markov Ocultos, anos 1970 e 1980.Pesquisadores da IBM, CMU e Bell Labs aplicam Modelos de Markov Ocultos (HMMs) à fala, melhorando dramaticamente a precisão e o tamanho do vocabulário. O Harpy da Carnegie Mellon (1976) reconhece cerca de 1.000 palavras de múltiplos falantes. A técnica permanece a base do reconhecimento de voz até 2010.
- Dragon NaturallySpeaking, 1997.Dragon Systems lança o primeiro software de ditado comercial amplamente usado para PCs Windows. O treinamento do falante (ler em voz alta uma passagem para calibrar à sua voz) leva 30 minutos; a precisão atinge cerca de 95% em condições ótimas. Torna-se o padrão para transcrição jurídica, ditado médico e acessibilidade ao longo dos anos 2000.
- Apple Siri, 2011.Apple adquire a Siri Inc. e integra o reconhecimento de voz no iPhone 4S. Pela primeira vez, o reconhecimento de voz é um recurso de consumo mainstream, acessado por centenas de milhões de usuários diariamente. Google Now (2012) e Amazon Alexa (2014) seguem.
- API Web Speech em navegadores, 2012 a 2013.Google adiciona
webkitSpeechRecognitionao Chrome 25, logo padronizado como a API Web Speech do W3C. Páginas da web ganham acesso ao mesmo reconhecimento de voz que alimenta o Google search e o Now, sem exigir um aplicativo nativo. A adoção se expande pelo Chrome, Edge, Safari e outros navegadores Chromium ao longo da década seguinte. - Whisper e ASR no dispositivo, 2022 a 2024.OpenAI lança o Whisper (setembro de 2022), um modelo de reconhecimento de voz multilíngue de código aberto treinado em 680.000 horas de áudio. Aproxima a precisão em nível humano em 99 idiomas. O ditado no dispositivo da Apple no iOS 17 e macOS Sonoma (2023) elimina a necessidade de enviar áudio aos servidores da Apple. A tendência rumo ao reconhecimento de voz no dispositivo, preservando a privacidade, acelera.
Fluxos do mundo real
- Ditando e-mails e mensagens.Para escrita de forma mais longa onde digitar é lento, o reconhecimento de voz redige o conteúdo em 2x a 3x menos tempo que a entrada por teclado. Fluxo comum: ditar o primeiro rascunho, depois ler e corrigir erros com o teclado. Funciona bem para e-mails, mensagens do Slack, postagens em mídias sociais e qualquer texto onde as ideias fluem mais facilmente verbalmente do que no teclado.
- Tomada de notas de reunião e aula.Coloque seu laptop perto de um alto-falante (ou de você mesmo) e deixe a transcrição rodar durante uma reunião ou aula. A saída captura mais detalhes verbatim do que notas manuscritas podem. Para reuniões complexas com múltiplos falantes e sotaques, ferramentas dedicadas como Otter.ai produzem transcrições mais limpas; para aulas individuais, o ditado baseado em navegador é suficiente e gratuito.
- Acessibilidade para deficiências motoras.Para usuários com artrite, lesão por esforço repetitivo, paralisia ou outras limitações motoras, a entrada por voz não é uma conveniência mas um método primário de acesso. A API Web Speech do navegador funciona em qualquer dispositivo com microfone, não requer hardware especializado e opera instantaneamente. Para uso intenso, ferramentas de acessibilidade dedicadas (Dragon, Apple Voice Control, Windows Voice Access) fornecem integração mais profunda com o sistema, incluindo controlar o próprio SO, não apenas entrada de texto.
- Jornalismo e transcrição de entrevistas.Repórteres usam ditado por voz para redigir artigos entre entrevistas e produzir transcrições brutas de entrevistas gravadas. A ferramenta do navegador não é um serviço completo de transcrição (único falante, única fonte de áudio), mas para fluxos «me dê um ponto de partida que eu posso editar», economiza tempo substancial comparado a digitar a transcrição inteira a partir da reprodução.
- Feedback de pronúncia para aprendizagem de idiomas.Configure o idioma para o que você está aprendendo, fale uma frase e releia o que o sistema transcreveu. Se o texto reconhecido corresponde ao que você queria dizer, sua pronúncia foi clara; se difere, você tem feedback específico sobre quais sons precisam de trabalho. Gratuito, imediato e opera em 30+ idiomas.
- Preenchimento de formulários para entradas longas.Para inscrições de emprego, formulários de feedback do cliente ou tickets de suporte com campos de texto longos, o ditado produz saída mais rápida que digitar, mantendo suas mãos livres para navegar a página. Especialmente útil em tablets e telefones onde teclados na tela retardam a entrada. Fale a resposta, cole no campo do formulário, depois revise.
Armadilhas comuns e o que significam
- Sotaques e ruído reduzem a precisão.Modelos de reconhecimento de voz são treinados predominantemente em certas variedades de sotaque (inglês americano geral, RP britânico, etc.). Sotaques regionais fortes, falantes de segundo idioma e ruído de fundo podem cair a precisão de 95%+ para 70% ou menos. Para sotaques não padrão, fale ligeiramente mais devagar e claramente, aproxime-se do microfone e considere uma ferramenta dedicada treinada no seu sotaque ou uma com adaptação de falante como Dragon.
- A pontuação é ausente ou não confiável.A API Web Speech não insere pontuação automaticamente; dizer «ponto» ou «ponto de interrogação» insere a palavra real, não a marca de pontuação. Algumas ferramentas de ditado especializadas (Dragon, Apple Dictation) interpretam comandos de voz para pontuação, mas a API do navegador não. Planeje adicionar pontuação na passagem de edição após o ditado.
- Timeouts do navegador encerram sessões inesperadamente.O Chrome encerra o reconhecimento de voz após cerca de 30 a 60 segundos de silêncio ou às vezes no meio de um enunciado. A opção Modo Contínuo da ferramenta reinicia automaticamente o reconhecimento, mas você pode notar breves pausas ou palavras perdidas nas costuras. Para sessões longas de ditado, espere lacunas ocasionais. O Safari lida com sessões mais longas com mais graça.
- Firefox não suporta a API Web Speech.A Mozilla escolheu não implementar a API Web Speech no Firefox, citando preocupações de privacidade e complexidade. Usuários do Firefox veem «reconhecimento de voz não suportado» ao abrir esta ferramenta. Para usuários do Firefox dependentes de acessibilidade, isto é uma lacuna significativa; Chrome, Edge ou uma ferramenta dedicada integrada com leitor de tela é necessária.
- Chrome e Edge enviam áudio para Google ou Microsoft.Diferente da maioria das ferramentas de navegador neste site, a API Web Speech no Chrome e Edge não roda no dispositivo; seu áudio é transmitido aos serviços de voz do Google ou Microsoft para processamento. Para conteúdo confidencial (depoimentos jurídicos, ditado médico, planejamento proprietário), isto é uma consideração de privacidade significativa. Use Safari (que é no dispositivo no iOS 17+ e macOS Sonoma+) ou uma ferramenta offline dedicada como Whisper rodando localmente.
- Homófonos e nomes próprios fazem o modelo tropeçar.«Por que / porque», «mas / mais», nomes como «Sean / Shawn» são adivinhados a partir do contexto, às vezes erradamente. Jargão técnico, nomes de marca, palavras estrangeiras e vocabulário incomum são particularmente propensos a erros. Planeje revisar, especialmente para conteúdo que será publicado ou enviado sem revisão adicional.
Privacidade: o manejo de áudio difere por navegador
Diferente da maioria das ferramentas neste site que rodam inteiramente do lado do cliente, as propriedades de privacidade da API Web Speech dependem de qual navegador você usa. Chrome e Edge transmitem seu áudio de microfone aos serviços de reconhecimento de voz em nuvem do Google e da Microsoft. Ambas as empresas declaram que não armazenam o áudio a longo prazo para consultas de reconhecimento de voz (em oposição a perfis de voz treinados pelo usuário), mas o áudio sai do seu dispositivo, atravessa suas redes e é processado em seus servidores. Safari no iOS 17+ e macOS Sonoma+ roda o reconhecimento de voz inteiramente no dispositivo usando o ASR no dispositivo da Apple, então seu áudio nunca sai do seu Mac ou iPhone. Versões mais antigas do Safari e outros navegadores Apple podem diferir.
O Absolutool em si não recebe nada. A página chama a API de voz do navegador, o navegador lida com o áudio (seja no dispositivo ou via o serviço em nuvem de seu fornecedor) e apenas o texto de transcrição resultante volta à página. A ferramenta então exibe o texto e permite que você copie ou baixe; nenhuma chamada de servidor é feita pela página em si. Para usuários lidando com conteúdo confidencial, a abordagem recomendada é: (1) use Safari em um dispositivo Apple recente para processamento no dispositivo, ou (2) use uma ferramenta offline dedicada como Whisper rodando localmente, ou (3) aceite que Chrome e Edge encaminham áudio através de Google/Microsoft e use-os apenas para conteúdo não sensível.
Quando outra ferramenta é a escolha certa
- Whisper para transcrição offline.Whisper da OpenAI (código aberto, gratuito) roda inteiramente na sua máquina local após um download único. O modelo lida com 99 idiomas com precisão se aproximando do nível humano para áudio claro. Requer Python ou um dos muitos wrappers GUI (Whisper Desktop, MacWhisper, Buzz) e uma máquina razoavelmente potente para operação em tempo real. Para conteúdo confidencial, operação offline ou transcrição em lote de arquivos de áudio gravados, Whisper é a ferramenta certa.
- Dragon NaturallySpeaking para ditado profissional.Dragon (agora propriedade da Nuance/Microsoft, $200 a $500 dependendo da edição) fornece a maior precisão para ditado profissional sustentado, com treinamento de falante, vocabulário personalizado, comandos de voz para pontuação e formatação e integração profunda com Microsoft Word e outros aplicativos. Para transcrição jurídica, ditado médico ou qualquer um ditando por horas por dia, o preço é justificado.
- Otter.ai para transcrições de reuniões multi-falante.Otter.ai (freemium, $8,33/mês por Pro) se especializa em transcrição de reuniões com diarização de falantes (saber quem disse o quê), pontuação automática, sumarização e integração com Zoom, Teams e Google Meet. Para reuniões com múltiplos participantes onde atribuição importa, Otter é a ferramenta certa. Compromisso de privacidade: as reuniões são armazenadas nos servidores do Otter.
- Ditado de OS nativo para entrada por voz a nível do sistema.Windows Voice Access, macOS Voice Control / Enhanced Dictation e o ditado do sistema iOS / Android funcionam em qualquer lugar onde você pode digitar, não apenas em uma única página web. Para usuários de acessibilidade que precisam de entrada por voz através de todo o SO, o ditado nativo é mais prático que uma ferramenta de navegador. macOS Enhanced Dictation e o ditado iOS 17+ são no dispositivo.
Mais perguntas frequentes
Por que o reconhecimento para depois de um minuto?
Chrome e Edge têm timeouts embutidos que encerram sessões de Web Speech após cerca de 30 a 60 segundos, destinados a economizar largura de banda e evitar gravação indefinida acidental. Habilite o Modo Contínuo na ferramenta para reiniciar automaticamente o reconhecimento quando isso acontecer. O modo contínuo introduz breves pausas entre sessões (tipicamente menos de um segundo), o que pode resultar em palavras ocasionalmente perdidas nas costuras. Safari lida com sessões mais longas com mais graça sem timeouts.
Por que a precisão é mais baixa que eu esperava?
Três fatores: (1) Seu sotaque pode diferir dos dados de treinamento; considere tentar uma variante de idioma mais próxima (por exemplo, en-IN para inglês indiano, en-AU para australiano). (2) Ruído de fundo, distância do microfone e qualidade do áudio importam; sala silenciosa e microfone próximo produzem precisão de 95%+, enquanto ambiente barulhento e microfone distante caem para 70% ou menos. (3) Vocabulário especializado (termos técnicos, nomes próprios, nomes de marca) é mais difícil que a fala geral; para ditado profissional de alta precisão, o treinamento de falante e vocabulário personalizado do Dragon valem o custo.
Posso ditar pontuação por voz?
Nesta ferramenta não. A API Web Speech não interpreta comandos de voz para pontuação; dizer «ponto» insere a palavra «ponto», não uma marca «.». Algumas ferramentas de ditado dedicadas (Dragon, Apple Dictation, Windows Voice Access) reconhecem comandos de pontuação falados. Para ditado baseado em navegador, o fluxo típico é: ditar as palavras, depois adicionar pontuação em uma passagem de edição com o teclado. Modelos modernos de forma longa (Whisper) muitas vezes adicionam pontuação automaticamente com base em padrões de fala.
Isso funciona no iPhone?
Sim, no iOS 14.5 e posterior via Safari. iOS 17 trouxe reconhecimento de voz no dispositivo através da implementação da API Web Speech do Safari, então seu áudio nunca sai do seu iPhone. Para ditado sustentado no iPhone ou iPad, você também pode usar o Ditado do iOS em nível do sistema (toque o ícone de microfone no teclado), que funciona em qualquer campo de texto através do SO.
Por que o Firefox não suporta isto?
A Mozilla não implementou a API Web Speech no Firefox, principalmente devido a preocupações de privacidade com o modelo de roteamento em nuvem usado por Chrome e Edge, e a complexidade de engenharia de implementar uma alternativa preservadora de privacidade. Usuários do Firefox no rastreador de bugs da Mozilla solicitaram suporte de voz por anos; a posição oficial da Mozilla é que o reconhecimento de voz local significativo requer recursos significativos e eles não o priorizaram. Por enquanto, usuários do Firefox buscando entrada por voz devem usar Chrome, Edge, Safari ou uma solução a nível do sistema como o ditado do SO.
Posso transcrever um arquivo de áudio pré-gravado?
Não diretamente. A API Web Speech só aceita entrada ao vivo de microfone, não uploads de arquivos. Para transcrever um arquivo gravado, a solução alternativa é reproduzir o arquivo de áudio através dos alto-falantes do seu computador (ou usar software de roteamento de áudio como Soundflower ou BlackHole) enquanto esta ferramenta escuta via o microfone. Isso perde alguma precisão devido à distorção acústica. Para transcrição de alta qualidade de áudio gravado, use uma ferramenta dedicada: Whisper (offline, gratuito), Otter.ai ou um serviço de transcrição como Rev. Para transcrição informal ocasional, o truque de reprodução-pelo-microfone funciona.