Reconocimiento de voz gratis en línea
Convierte tu voz en texto al instante. Sin subidas, sin registro, sin cuentas - solo habla y transcribe.
Cómo funciona
- Permitir acceso al micrófonoConcede permiso para usar tu micrófono cuando tu navegador lo solicite.
- Iniciar dictadoHaz clic en Iniciar grabación y habla claramente para ver tus palabras transcritas en vivo.
- Editar la transcripciónRevisa y ajusta el texto transcrito directamente en el área de texto editable.
- Copiar o descargarCopia el texto al portapapeles o descárgalo como archivo TXT.
¿Por qué usar reconocimiento de voz?
El dictado por voz es de 3 a 4 veces más rápido que escribir, lo que lo convierte en una gran herramienta de productividad. Usando la API Web Speech integrada en tu navegador, puedes dictar correos, notas, publicaciones de blog o informes sin instalar ningún software. También es una excelente herramienta de accesibilidad para personas con dificultades para escribir o que prefieren la entrada por voz.
Características
- Transcripción en tiempo real, Ve tus palabras aparecer mientras hablas, con actualizaciones instantáneas.
- Soporte multiidioma, Elige entre más de 30 idiomas y dialectos para un reconocimiento preciso.
- Modo continuo, El reconocimiento se reinicia automáticamente para sesiones largas de dictado.
- Privacidad primero, Todo el procesamiento ocurre en tu navegador, no se envía audio a nuestros servidores.
- Salida editable, Corrige y refina tu transcripción directamente antes de copiarla o descargarla.
Lo que el reconocimiento de voz del navegador realmente hace
El reconocimiento de voz (también llamado Automatic Speech Recognition, ASR) convierte el audio hablado en texto escrito. Los sistemas ASR modernos combinan un modelo acústico (cómo los sonidos mapean a fonemas), un modelo de lenguaje (cómo las palabras y frases van juntas en lenguaje real) y un decodificador que encuentra la secuencia de palabras más probable dado el audio. La revolución de los 2010 fue el aprendizaje profundo: las redes neuronales reemplazaron a los anteriores Modelos Ocultos de Markov para el modelado acústico y de lenguaje, elevando la precisión de aproximadamente 80% en habla limpia a 95%+ en audio cooperativo de un solo hablante. Para 2022, Whisper de OpenAI demostró que un solo modelo multilingüe podía igualar o superar a sistemas especializados en 99 idiomas.
Esta herramienta usa la API Web Speech del navegador, el estándar W3C para ASR en el navegador introducido en Chrome 25 (2013) y gradualmente añadido a Edge, Safari y la mayoría de navegadores Chromium. La API expone un objeto SpeechRecognition que transmite el audio del micrófono al servicio de voz que el navegador implementa: Chrome y Edge enrutan el audio a los servicios de voz en la nube de Google y Microsoft respectivamente, mientras que Safari en iOS 17+ y macOS Sonoma+ ejecuta el reconocimiento en el dispositivo. Firefox no implementa la API Web Speech en absoluto. Esta distinción de privacidad importa: la herramienta misma se ejecuta en tu navegador y nunca ve tu audio, pero Chrome y Edge sí transmiten audio a los servidores de Google/Microsoft para procesamiento.
Para la mayoría de usuarios, el compromiso versus escribir es dramático. La velocidad promedio de escritura para trabajadores de oficina es de 40 a 60 palabras por minuto; el habla promedio es de 130 a 150 palabras por minuto. El dictado por voz es 2x a 3x más rápido para obtener texto inicial, con la advertencia de que la edición después generalmente sigue siendo escribir. La entrada por voz también importa para la accesibilidad: usuarios con discapacidades motoras, lesión por esfuerzo repetitivo o lesiones temporales pueden producir texto por voz cuando escribir es impráctico. Para aprendices de idiomas, escuchar si el sistema reconoció correctamente tu habla proporciona retroalimentación sobre pronunciación. Para captura de reuniones, las transcripciones en tiempo real ayudan a participantes y colegas ausentes por igual.
Cómo funciona esta herramienta tras bambalinas
Cuando haces clic en «Comenzar a Grabar», la página crea un objeto SpeechRecognition (o webkitSpeechRecognition en Chrome más antiguo) y llama start(). El navegador solicita permiso de micrófono si no se ha otorgado previamente, luego comienza a transmitir el audio capturado al servicio de voz del sistema. La etiqueta de idioma que seleccionaste (e.g., en-US, fr-FR, zh-CN) se pasa al servicio para que cargue los modelos acústico y de lenguaje apropiados.
El navegador entrega dos tipos de resultados a la página: resultados interinos (mejores conjeturas parciales, actualizadas 5 a 20 veces por segundo a medida que llega nuevo audio) y resultados finales (transcripción bloqueada de una declaración completa, típicamente emitida cuando el hablante hace una pausa por un momento). El área de texto de la herramienta muestra los resultados interinos en un estilo más ligero y bloquea los resultados finales a medida que llegan. El contador de palabras se actualiza solo desde los resultados finales, así que no parpadea cuando cambian las conjeturas interinas. El modo continuo (una opción de casilla) reinicia automáticamente la sesión de reconocimiento si el navegador la termina después de un silencio largo, lo cual es común en Chrome pero raro en Safari.
Una vez que te detienes, la transcripción permanece en el área de texto, completamente editable. Los botones Copiar y Descargar trabajan sobre el texto en el área de texto; ambos ocurren localmente sin involucración del servidor. La herramienta misma nunca transmite tu audio o transcripción a ningún lado; la única actividad de red es lo que el navegador hace internamente para comunicarse con el servicio de voz de Google o Microsoft (o ninguna, en Safari). Tu transcripción nunca se almacena: refresca la página y se va a menos que la hayas copiado o descargado primero.
Breve historia del reconocimiento de voz
- Audrey, IBM 1952.Bell Labs construye el primer sistema de reconocimiento de voz, «Audrey», que podía reconocer dígitos hablados 0 al 9 de un solo hablante entrenado. El sistema llenaba una sala y tomaba varios segundos por dígito. IBM sigue en 1962 con el Shoebox, reconociendo 16 palabras inglesas habladas.
- Modelos Ocultos de Markov, años 1970 y 1980.Investigadores de IBM, CMU y Bell Labs aplican Modelos Ocultos de Markov (HMM) al habla, mejorando dramáticamente la precisión y el tamaño del vocabulario. Harpy de Carnegie Mellon (1976) reconoce alrededor de 1.000 palabras de múltiples hablantes. La técnica permanece como el fundamento del reconocimiento de voz hasta 2010.
- Dragon NaturallySpeaking, 1997.Dragon Systems lanza el primer software de dictado comercial ampliamente usado para PCs Windows. El entrenamiento del hablante (leer en voz alta un pasaje para calibrar a tu voz) toma 30 minutos; la precisión alcanza aproximadamente 95% en condiciones óptimas. Se convierte en el estándar para transcripción legal, dictado médico y accesibilidad durante los años 2000.
- Apple Siri, 2011.Apple adquiere Siri Inc. e integra el reconocimiento de voz en el iPhone 4S. Por primera vez, el reconocimiento de voz es una característica de consumo masivo, accedida por cientos de millones de usuarios diariamente. Google Now (2012) y Amazon Alexa (2014) siguen.
- API Web Speech en navegadores, 2012 a 2013.Google agrega
webkitSpeechRecognitiona Chrome 25, pronto estandarizado como la API Web Speech W3C. Las páginas web obtienen acceso al mismo reconocimiento de voz que impulsa Google search y Now, sin requerir una app nativa. La adopción se expande a través de Chrome, Edge, Safari y otros navegadores Chromium durante la siguiente década. - Whisper y ASR en dispositivo, 2022 a 2024.OpenAI lanza Whisper (septiembre 2022), un modelo de reconocimiento de voz multilingüe de código abierto entrenado en 680.000 horas de audio. Aproxima precisión a nivel humano a través de 99 idiomas. El dictado en dispositivo de Apple en iOS 17 y macOS Sonoma (2023) elimina la necesidad de enviar audio a los servidores de Apple. La tendencia hacia el reconocimiento de voz en dispositivo, preservador de privacidad, se acelera.
Flujos del mundo real
- Dictar correos y mensajes.Para escritura de mayor longitud donde escribir es lento, el reconocimiento de voz redacta el contenido en 2x a 3x menos tiempo que la entrada por teclado. Flujo común: dictar el primer borrador, luego leerlo y corregir errores con el teclado. Funciona bien para correos, mensajes de Slack, publicaciones en redes sociales y cualquier texto donde las ideas fluyan más fácilmente verbalmente que en el teclado.
- Toma de notas en reuniones y clases.Coloca tu laptop cerca de un altavoz (o de ti mismo) y deja que la transcripción corra durante una reunión o clase. La salida captura más detalle verbatim que las notas manuscritas pueden. Para reuniones complejas con múltiples hablantes y acentos, herramientas dedicadas como Otter.ai producen transcripciones más limpias; para clases en solitario, el dictado basado en navegador es suficiente y gratis.
- Accesibilidad para discapacidades motoras.Para usuarios con artritis, lesión por esfuerzo repetitivo, parálisis u otras limitaciones motoras, la entrada por voz no es una conveniencia sino un método de acceso primario. La API Web Speech del navegador funciona en cualquier dispositivo con micrófono, no requiere hardware especializado, y opera instantáneamente. Para uso intenso, las herramientas de accesibilidad dedicadas (Dragon, Apple Voice Control, Windows Voice Access) proporcionan integración más profunda con el sistema, incluyendo controlar el SO mismo, no solo entrada de texto.
- Periodismo y transcripción de entrevistas.Los reporteros usan dictado por voz para redactar artículos entre entrevistas y para producir transcripciones brutas de entrevistas grabadas. La herramienta del navegador no es un servicio completo de transcripción (un solo hablante, una sola fuente de audio), pero para flujos «dame un punto de partida que pueda editar», ahorra tiempo sustancial comparado con escribir la transcripción entera desde la reproducción.
- Retroalimentación de pronunciación para aprender idiomas.Configura el idioma al que estás aprendiendo, di una oración, y vuelve a leer lo que el sistema transcribió. Si el texto reconocido coincide con lo que querías decir, tu pronunciación fue clara; si difiere, tienes retroalimentación específica sobre qué sonidos necesitan trabajo. Gratis, inmediato, y opera en 30+ idiomas.
- Llenado de formularios para entradas largas.Para solicitudes de empleo, formularios de retroalimentación del cliente o tickets de soporte con campos de texto largos, el dictado produce salida más rápida que escribir mientras mantiene tus manos libres para navegar la página. Especialmente útil en tabletas y teléfonos donde los teclados en pantalla ralentizan la entrada. Habla la respuesta, pégala en el campo del formulario, luego revisa.
Trampas comunes y lo que significan
- Acentos y ruido reducen la precisión.Los modelos de reconocimiento de voz se entrenan predominantemente en ciertas variedades de acento (inglés americano general, RP británico, etc.). Acentos regionales fuertes, hablantes de segundo idioma y ruido de fondo pueden bajar la precisión de 95%+ a 70% o menos. Para acentos no estándar, habla un poco más despacio y claro, acércate al micrófono, y considera una herramienta dedicada entrenada en tu acento o una con adaptación de hablante como Dragon.
- La puntuación es ausente o poco confiable.La API Web Speech no inserta puntuación automáticamente; decir «punto» o «signo de interrogación» inserta la palabra real, no la marca de puntuación. Algunas herramientas de dictado especializadas (Dragon, Apple Dictation) interpretan comandos de voz para puntuación, pero la API del navegador no lo hace. Planifica agregar puntuación en la pasada de edición después del dictado.
- Los tiempos de espera del navegador terminan sesiones inesperadamente.Chrome termina el reconocimiento de voz después de aproximadamente 30 a 60 segundos de silencio o a veces a mitad de una declaración. La opción de Modo Continuo de la herramienta reinicia automáticamente el reconocimiento, pero puedes notar pausas breves o palabras perdidas en las uniones. Para sesiones largas de dictado, espera huecos ocasionales. Safari maneja sesiones más largas con más gracia.
- Firefox no soporta la API Web Speech.Mozilla ha elegido no implementar la API Web Speech en Firefox, citando preocupaciones de privacidad y complejidad. Los usuarios de Firefox ven «reconocimiento de voz no soportado» al abrir esta herramienta. Para usuarios de Firefox dependientes de accesibilidad, esto es una brecha significativa; se requiere Chrome, Edge o una herramienta dedicada integrada con lector de pantalla.
- Chrome y Edge envían audio a Google o Microsoft.A diferencia de la mayoría de herramientas del navegador en este sitio, la API Web Speech en Chrome y Edge no corre en dispositivo; tu audio es transmitido a los servicios de voz de Google o Microsoft para procesamiento. Para contenido confidencial (deposiciones legales, dictado médico, planeación propietaria), esto es una consideración de privacidad significativa. Usa Safari (que es en dispositivo en iOS 17+ y macOS Sonoma+) o una herramienta offline dedicada como Whisper corriendo localmente.
- Homófonos y nombres propios hacen tropezar al modelo.«Tuvo / tubo», «hay / ahí», nombres como «José / Josué» se adivinan del contexto, a veces incorrectamente. La jerga técnica, nombres de marca, palabras extranjeras y vocabulario poco común son particularmente propensos a errores. Planifica revisar, especialmente para contenido que será publicado o enviado sin más revisión.
Privacidad: el manejo de audio difiere por navegador
A diferencia de la mayoría de herramientas en este sitio que corren completamente del lado del cliente, las propiedades de privacidad de la API Web Speech dependen de qué navegador uses. Chrome y Edge transmiten tu audio de micrófono a los servicios de reconocimiento de voz en la nube de Google y Microsoft. Ambas empresas declaran que no almacenan el audio a largo plazo para consultas de reconocimiento de voz (a diferencia de perfiles de voz entrenados por el usuario), pero el audio sí sale de tu dispositivo, atraviesa sus redes y se procesa en sus servidores. Safari en iOS 17+ y macOS Sonoma+ corre el reconocimiento de voz completamente en dispositivo usando el ASR en dispositivo de Apple, así que tu audio nunca sale de tu Mac o iPhone. Las versiones más antiguas de Safari y otros navegadores Apple pueden diferir.
Absolutool mismo no recibe nada. La página llama a la API de voz del navegador, el navegador maneja el audio (ya sea en dispositivo o vía el servicio en la nube de su proveedor), y solo el texto de la transcripción resultante regresa a la página. La herramienta luego muestra el texto y te permite copiarlo o descargarlo; ninguna llamada al servidor es hecha por la página misma. Para usuarios que manejan contenido confidencial, el enfoque recomendado es: (1) usar Safari en un dispositivo Apple reciente para procesamiento en dispositivo, o (2) usar una herramienta offline dedicada como Whisper corriendo localmente, o (3) aceptar que Chrome y Edge enrutan audio a través de Google/Microsoft y usarlos solo para contenido no sensible.
Cuándo otra herramienta es la opción correcta
- Whisper para transcripción offline.Whisper de OpenAI (código abierto, gratis) corre completamente en tu máquina local después de una descarga única. El modelo maneja 99 idiomas con precisión acercándose al nivel humano para audio claro. Requiere Python o uno de los muchos envoltorios GUI (Whisper Desktop, MacWhisper, Buzz) y una máquina razonablemente potente para operación en tiempo real. Para contenido confidencial, operación offline o transcripción por lotes de archivos de audio grabados, Whisper es la herramienta correcta.
- Dragon NaturallySpeaking para dictado profesional.Dragon (ahora propiedad de Nuance/Microsoft, $200 a $500 dependiendo de la edición) proporciona la mayor precisión para dictado profesional sostenido, con entrenamiento de hablante, vocabulario personalizado, comandos de voz para puntuación y formato, e integración profunda con Microsoft Word y otras apps. Para transcripción legal, dictado médico o cualquiera que dicte por horas al día, el precio está justificado.
- Otter.ai para transcripciones de reuniones multi-hablante.Otter.ai (freemium, $8.33/mes por Pro) se especializa en transcripción de reuniones con diarización de hablantes (saber quién dijo qué), puntuación automática, resumen e integración con Zoom, Teams y Google Meet. Para reuniones con múltiples participantes donde la atribución importa, Otter es la herramienta correcta. Compromiso de privacidad: las reuniones se almacenan en los servidores de Otter.
- Dictado OS nativo para entrada por voz a nivel del sistema.Windows Voice Access, macOS Voice Control / Enhanced Dictation y el dictado del sistema iOS / Android funcionan en cualquier lugar donde puedes escribir, no solo en una sola página web. Para usuarios de accesibilidad que necesitan entrada por voz a través de todo el SO, el dictado nativo es más práctico que una herramienta de navegador. macOS Enhanced Dictation y dictado de iOS 17+ son en dispositivo.
Más preguntas frecuentes
¿Por qué el reconocimiento se detiene después de un minuto?
Chrome y Edge tienen tiempos de espera incorporados que terminan las sesiones de Web Speech después de aproximadamente 30 a 60 segundos, destinados a ahorrar ancho de banda y prevenir grabación indefinida accidental. Habilita el Modo Continuo en la herramienta para reiniciar automáticamente el reconocimiento cuando esto suceda. El modo continuo introduce pausas breves entre sesiones (típicamente menos de un segundo), lo que puede resultar en palabras ocasionalmente perdidas en las uniones. Safari maneja sesiones más largas con más gracia sin tiempos de espera.
¿Por qué la precisión es menor de lo que esperaba?
Tres factores: (1) Tu acento puede diferir de los datos de entrenamiento; considera probar una variante de idioma más cercana (e.g., en-IN para inglés indio, en-AU para australiano). (2) El ruido de fondo, la distancia del micrófono y la calidad del audio importan; sala silenciosa y micrófono cercano producen precisión de 95%+, mientras que ambiente ruidoso y micrófono distante bajan a 70% o menos. (3) El vocabulario especializado (términos técnicos, nombres propios, nombres de marca) es más difícil que el habla general; para dictado profesional de alta precisión, el entrenamiento de hablante y el vocabulario personalizado de Dragon valen el costo.
¿Puedo dictar puntuación por voz?
No en esta herramienta. La API Web Speech no interpreta comandos de voz para puntuación; decir «punto» inserta la palabra «punto», no una marca «.». Algunas herramientas de dictado dedicadas (Dragon, Apple Dictation, Windows Voice Access) reconocen comandos de puntuación hablada. Para dictado basado en navegador, el flujo típico es: dictar las palabras, luego agregar puntuación en una pasada de edición con el teclado. Los modelos modernos de forma larga (Whisper) a menudo agregan puntuación automáticamente basados en patrones del habla.
¿Funciona esto en iPhone?
Sí, en iOS 14.5 y posteriores vía Safari. iOS 17 trajo el reconocimiento de voz en dispositivo a través de la implementación de la API Web Speech de Safari, así que tu audio nunca sale de tu iPhone. Para dictado sostenido en iPhone o iPad, también puedes usar el Dictado de iOS a nivel del sistema (toca el ícono de micrófono en el teclado), que funciona en cualquier campo de texto a través del SO.
¿Por qué Firefox no soporta esto?
Mozilla no ha implementado la API Web Speech en Firefox, principalmente debido a preocupaciones de privacidad con el modelo de enrutamiento en la nube usado por Chrome y Edge, y la complejidad de ingeniería de implementar una alternativa preservadora de privacidad. Los usuarios de Firefox en el rastreador de bugs de Mozilla han solicitado soporte de voz por años; la posición oficial de Mozilla es que el reconocimiento de voz local significativo requiere recursos importantes y no lo han priorizado. Por ahora, los usuarios de Firefox que buscan entrada por voz deberían usar Chrome, Edge, Safari o una solución a nivel del sistema como el dictado del SO.
¿Puedo transcribir un archivo de audio pregrabado?
No directamente. La API Web Speech solo acepta entrada de micrófono en vivo, no subidas de archivos. Para transcribir un archivo grabado, la solución es reproducir el archivo de audio a través de los altavoces de tu computadora (o usar software de enrutamiento de audio como Soundflower o BlackHole) mientras esta herramienta escucha vía el micrófono. Esto pierde algo de precisión debido a la distorsión acústica. Para transcripción de alta calidad de audio grabado, usa una herramienta dedicada: Whisper (offline, gratis), Otter.ai o un servicio de transcripción como Rev. Para transcripción informal ocasional, el truco de reproducción-a-través-de-micrófono funciona.