Reconocimiento de voz gratis en línea

Convierte tu voz en texto al instante. Sin subidas, sin registro, sin cuentas - solo habla y transcribe.

🔒 Usa el reconocimiento de voz integrado de tu navegador
Conteo de palabras: 0
Nota: Esta herramienta requiere un navegador moderno con compatibilidad de reconocimiento de voz (Chrome, Edge, Safari, Opera). Se requiere acceso al micrófono y solo se usará durante tu sesión de grabación.

Cómo funciona

  1. Permitir acceso al micrófonoConcede permiso para usar tu micrófono cuando tu navegador lo solicite.
  2. Iniciar dictadoHaz clic en Iniciar grabación y habla claramente para ver tus palabras transcritas en vivo.
  3. Editar la transcripciónRevisa y ajusta el texto transcrito directamente en el área de texto editable.
  4. Copiar o descargarCopia el texto al portapapeles o descárgalo como archivo TXT.

¿Por qué usar reconocimiento de voz?

El dictado por voz es de 3 a 4 veces más rápido que escribir, lo que lo convierte en una gran herramienta de productividad. Usando la API Web Speech integrada en tu navegador, puedes dictar correos, notas, publicaciones de blog o informes sin instalar ningún software. También es una excelente herramienta de accesibilidad para personas con dificultades para escribir o que prefieren la entrada por voz.

Características

Lo que el reconocimiento de voz del navegador realmente hace

El reconocimiento de voz (también llamado Automatic Speech Recognition, ASR) convierte el audio hablado en texto escrito. Los sistemas ASR modernos combinan un modelo acústico (cómo los sonidos mapean a fonemas), un modelo de lenguaje (cómo las palabras y frases van juntas en lenguaje real) y un decodificador que encuentra la secuencia de palabras más probable dado el audio. La revolución de los 2010 fue el aprendizaje profundo: las redes neuronales reemplazaron a los anteriores Modelos Ocultos de Markov para el modelado acústico y de lenguaje, elevando la precisión de aproximadamente 80% en habla limpia a 95%+ en audio cooperativo de un solo hablante. Para 2022, Whisper de OpenAI demostró que un solo modelo multilingüe podía igualar o superar a sistemas especializados en 99 idiomas.

Esta herramienta usa la API Web Speech del navegador, el estándar W3C para ASR en el navegador introducido en Chrome 25 (2013) y gradualmente añadido a Edge, Safari y la mayoría de navegadores Chromium. La API expone un objeto SpeechRecognition que transmite el audio del micrófono al servicio de voz que el navegador implementa: Chrome y Edge enrutan el audio a los servicios de voz en la nube de Google y Microsoft respectivamente, mientras que Safari en iOS 17+ y macOS Sonoma+ ejecuta el reconocimiento en el dispositivo. Firefox no implementa la API Web Speech en absoluto. Esta distinción de privacidad importa: la herramienta misma se ejecuta en tu navegador y nunca ve tu audio, pero Chrome y Edge sí transmiten audio a los servidores de Google/Microsoft para procesamiento.

Para la mayoría de usuarios, el compromiso versus escribir es dramático. La velocidad promedio de escritura para trabajadores de oficina es de 40 a 60 palabras por minuto; el habla promedio es de 130 a 150 palabras por minuto. El dictado por voz es 2x a 3x más rápido para obtener texto inicial, con la advertencia de que la edición después generalmente sigue siendo escribir. La entrada por voz también importa para la accesibilidad: usuarios con discapacidades motoras, lesión por esfuerzo repetitivo o lesiones temporales pueden producir texto por voz cuando escribir es impráctico. Para aprendices de idiomas, escuchar si el sistema reconoció correctamente tu habla proporciona retroalimentación sobre pronunciación. Para captura de reuniones, las transcripciones en tiempo real ayudan a participantes y colegas ausentes por igual.

Cómo funciona esta herramienta tras bambalinas

Cuando haces clic en «Comenzar a Grabar», la página crea un objeto SpeechRecognition (o webkitSpeechRecognition en Chrome más antiguo) y llama start(). El navegador solicita permiso de micrófono si no se ha otorgado previamente, luego comienza a transmitir el audio capturado al servicio de voz del sistema. La etiqueta de idioma que seleccionaste (e.g., en-US, fr-FR, zh-CN) se pasa al servicio para que cargue los modelos acústico y de lenguaje apropiados.

El navegador entrega dos tipos de resultados a la página: resultados interinos (mejores conjeturas parciales, actualizadas 5 a 20 veces por segundo a medida que llega nuevo audio) y resultados finales (transcripción bloqueada de una declaración completa, típicamente emitida cuando el hablante hace una pausa por un momento). El área de texto de la herramienta muestra los resultados interinos en un estilo más ligero y bloquea los resultados finales a medida que llegan. El contador de palabras se actualiza solo desde los resultados finales, así que no parpadea cuando cambian las conjeturas interinas. El modo continuo (una opción de casilla) reinicia automáticamente la sesión de reconocimiento si el navegador la termina después de un silencio largo, lo cual es común en Chrome pero raro en Safari.

Una vez que te detienes, la transcripción permanece en el área de texto, completamente editable. Los botones Copiar y Descargar trabajan sobre el texto en el área de texto; ambos ocurren localmente sin involucración del servidor. La herramienta misma nunca transmite tu audio o transcripción a ningún lado; la única actividad de red es lo que el navegador hace internamente para comunicarse con el servicio de voz de Google o Microsoft (o ninguna, en Safari). Tu transcripción nunca se almacena: refresca la página y se va a menos que la hayas copiado o descargado primero.

Breve historia del reconocimiento de voz

Flujos del mundo real

Trampas comunes y lo que significan

Privacidad: el manejo de audio difiere por navegador

A diferencia de la mayoría de herramientas en este sitio que corren completamente del lado del cliente, las propiedades de privacidad de la API Web Speech dependen de qué navegador uses. Chrome y Edge transmiten tu audio de micrófono a los servicios de reconocimiento de voz en la nube de Google y Microsoft. Ambas empresas declaran que no almacenan el audio a largo plazo para consultas de reconocimiento de voz (a diferencia de perfiles de voz entrenados por el usuario), pero el audio sí sale de tu dispositivo, atraviesa sus redes y se procesa en sus servidores. Safari en iOS 17+ y macOS Sonoma+ corre el reconocimiento de voz completamente en dispositivo usando el ASR en dispositivo de Apple, así que tu audio nunca sale de tu Mac o iPhone. Las versiones más antiguas de Safari y otros navegadores Apple pueden diferir.

Absolutool mismo no recibe nada. La página llama a la API de voz del navegador, el navegador maneja el audio (ya sea en dispositivo o vía el servicio en la nube de su proveedor), y solo el texto de la transcripción resultante regresa a la página. La herramienta luego muestra el texto y te permite copiarlo o descargarlo; ninguna llamada al servidor es hecha por la página misma. Para usuarios que manejan contenido confidencial, el enfoque recomendado es: (1) usar Safari en un dispositivo Apple reciente para procesamiento en dispositivo, o (2) usar una herramienta offline dedicada como Whisper corriendo localmente, o (3) aceptar que Chrome y Edge enrutan audio a través de Google/Microsoft y usarlos solo para contenido no sensible.

Cuándo otra herramienta es la opción correcta

Más preguntas frecuentes

¿Por qué el reconocimiento se detiene después de un minuto?

Chrome y Edge tienen tiempos de espera incorporados que terminan las sesiones de Web Speech después de aproximadamente 30 a 60 segundos, destinados a ahorrar ancho de banda y prevenir grabación indefinida accidental. Habilita el Modo Continuo en la herramienta para reiniciar automáticamente el reconocimiento cuando esto suceda. El modo continuo introduce pausas breves entre sesiones (típicamente menos de un segundo), lo que puede resultar en palabras ocasionalmente perdidas en las uniones. Safari maneja sesiones más largas con más gracia sin tiempos de espera.

¿Por qué la precisión es menor de lo que esperaba?

Tres factores: (1) Tu acento puede diferir de los datos de entrenamiento; considera probar una variante de idioma más cercana (e.g., en-IN para inglés indio, en-AU para australiano). (2) El ruido de fondo, la distancia del micrófono y la calidad del audio importan; sala silenciosa y micrófono cercano producen precisión de 95%+, mientras que ambiente ruidoso y micrófono distante bajan a 70% o menos. (3) El vocabulario especializado (términos técnicos, nombres propios, nombres de marca) es más difícil que el habla general; para dictado profesional de alta precisión, el entrenamiento de hablante y el vocabulario personalizado de Dragon valen el costo.

¿Puedo dictar puntuación por voz?

No en esta herramienta. La API Web Speech no interpreta comandos de voz para puntuación; decir «punto» inserta la palabra «punto», no una marca «.». Algunas herramientas de dictado dedicadas (Dragon, Apple Dictation, Windows Voice Access) reconocen comandos de puntuación hablada. Para dictado basado en navegador, el flujo típico es: dictar las palabras, luego agregar puntuación en una pasada de edición con el teclado. Los modelos modernos de forma larga (Whisper) a menudo agregan puntuación automáticamente basados en patrones del habla.

¿Funciona esto en iPhone?

Sí, en iOS 14.5 y posteriores vía Safari. iOS 17 trajo el reconocimiento de voz en dispositivo a través de la implementación de la API Web Speech de Safari, así que tu audio nunca sale de tu iPhone. Para dictado sostenido en iPhone o iPad, también puedes usar el Dictado de iOS a nivel del sistema (toca el ícono de micrófono en el teclado), que funciona en cualquier campo de texto a través del SO.

¿Por qué Firefox no soporta esto?

Mozilla no ha implementado la API Web Speech en Firefox, principalmente debido a preocupaciones de privacidad con el modelo de enrutamiento en la nube usado por Chrome y Edge, y la complejidad de ingeniería de implementar una alternativa preservadora de privacidad. Los usuarios de Firefox en el rastreador de bugs de Mozilla han solicitado soporte de voz por años; la posición oficial de Mozilla es que el reconocimiento de voz local significativo requiere recursos importantes y no lo han priorizado. Por ahora, los usuarios de Firefox que buscan entrada por voz deberían usar Chrome, Edge, Safari o una solución a nivel del sistema como el dictado del SO.

¿Puedo transcribir un archivo de audio pregrabado?

No directamente. La API Web Speech solo acepta entrada de micrófono en vivo, no subidas de archivos. Para transcribir un archivo grabado, la solución es reproducir el archivo de audio a través de los altavoces de tu computadora (o usar software de enrutamiento de audio como Soundflower o BlackHole) mientras esta herramienta escucha vía el micrófono. Esto pierde algo de precisión debido a la distorsión acústica. Para transcripción de alta calidad de audio grabado, usa una herramienta dedicada: Whisper (offline, gratis), Otter.ai o un servicio de transcripción como Rev. Para transcripción informal ocasional, el truco de reproducción-a-través-de-micrófono funciona.

Herramientas relacionadas