Transcripción gratuita de vídeo a texto

Transcribe la voz de un archivo de vídeo a texto mediante el reconocimiento de voz del navegador. Funciona con MP4, WebM, MOV y más.

Tu archivo de vídeo permanece en tu dispositivo
Suelta un archivo de vídeo aquí o haz clic para navegar

MP4, WebM, MOV, OGG, AVI

Qué hace realmente el reconocimiento de voz desde vídeo

Transcribir vídeo significa convertir la forma de onda de audio grabada en texto. Un motor de voz a texto realiza tres tareas a la vez: modelado acústico (mapear frecuencias de sonido a fonemas, las unidades de sonido más pequeñas de un idioma), modelado de lenguaje (decidir qué secuencias de fonemas forman palabras probables y qué secuencias de palabras forman oraciones probables en el idioma elegido), y puntuación y mayúsculas (insertar comas, puntos y mayúsculas donde corresponda). Los motores modernos usan redes neuronales (modelos acústicos entrenados en decenas de miles de horas de habla etiquetada, modelos de lenguaje entrenados en miles de millones de palabras de texto). El resultado es una transcripción que aproxima lo que un humano escribiría, con calidad dependiendo de la claridad del audio, la coincidencia de acento con los datos de entrenamiento y cuántos homófonos ambiguos usa el hablante.

Esta herramienta usa la Web Speech API incorporada del navegador (específicamente la interfaz SpeechRecognition), el estándar W3C que expone el motor de reconocimiento del sistema operativo o del proveedor del navegador. En Chrome y Edge la API normalmente enruta el audio a través del servicio en la nube de speech-to-text de Google para procesamiento (el audio sale, la transcripción vuelve); en Firefox y Safari el motor corre localmente con características de calidad algo diferentes. La transcripción vuelve como una secuencia de resultados parciales (actualizaciones mientras se procesa más audio) y resultados finales (segmentos transcritos bloqueados). Esta herramienta muestra ambos durante la transcripción.

La selección de idioma importa mucho. Un motor de voz a texto sintonizado para inglés transcribirá mal audio en francés o mandarín. El menú desplegable muestra 20+ locales de idioma (en-US, en-GB, es-ES, fr-FR, de-DE, ja-JP, zh-CN y más). Elige el locale que coincida con el dialecto de tu hablante para mejores resultados. Los cambios de idioma a mitad de clip (un solo vídeo con múltiples idiomas) suelen dar pobres resultados porque el motor se compromete con un modelo acústico/lenguaje para toda la sesión.

Cómo funciona esta herramienta por dentro

Cuando sueltas un vídeo, el navegador lo carga en un HTMLVideoElement vía URL.createObjectURL() lo que mantiene el archivo local. La reproducción se pausa inicialmente para que puedas elegir el idioma y hacer clic en Iniciar.

Al hacer clic en Iniciar, la herramienta llama new SpeechRecognition() (o webkitSpeechRecognition en Chrome legacy), establece recognition.continuous = true y recognition.interimResults = true, establece el idioma a tu locale seleccionado y llama recognition.start() mientras simultáneamente reproduce el vídeo con su audio enrutado al pipeline de entrada de audio del navegador. El motor de reconocimiento consume el audio en fragmentos y emite eventos result mientras transcribe.

Cada evento result lleva un array de alternativas ordenadas por confianza. La herramienta toma la alternativa superior para cada resultado final y la añade al cuadro de transcripción editable. Los resultados intermedios (aún refinándose) se muestran en texto más claro. Cuando el vídeo termina o haces clic en Detener, recognition.stop() finaliza la sesión. Las opciones de exportación escriben la transcripción como texto plano (.txt) o con timestamps sintéticos como subtítulos SRT/VTT, todo construido en memoria y ofrecido vía descarga blob.

Breve historia del reconocimiento de voz

Cómo funciona

  1. Importa un vídeo: selecciona un archivo de vídeo de tu dispositivo o pega una URL de vídeo.
  2. Elige el idioma: selecciona el idioma hablado en el vídeo para una mejor precisión de la transcripción.
  3. Transcribe: la pista de audio se extrae y procesa mediante el motor de reconocimiento de voz para producir una transcripción.
  4. Edita y exporta: revisa y corrige la transcripción, luego cópiala o descárgala en .txt o como archivo de subtítulos .srt.

¿Por qué usar vídeo a texto?

Transcribir un vídeo a texto mejora la accesibilidad (subtítulos para personas sordas y con dificultades auditivas), el SEO (contenido buscable a partir del vídeo) y la reutilización (transformar un webinar en un artículo de blog o en material de curso). Crear una transcripción manualmente toma entre 4 y 6 horas por hora de vídeo. La transcripción automatizada con una herramienta basada en el navegador reduce ese tiempo considerablemente y además preserva la privacidad: el vídeo nunca sale de tu dispositivo. Las transcripciones también son útiles para recorrer contenido, crear subtítulos, generar resúmenes de vídeo y cumplir con requisitos de subtitulado.

Formatos de salida

Flujos de transcripción del mundo real

Trampas comunes y qué significan

Privacidad: matizada

Esta herramienta tiene más matices que otras herramientas en este sitio, así que la imagen de privacidad merece atención explícita. El archivo de vídeo en sí nunca sale de tu dispositivo: se carga como una blob URL local en el navegador, se reproduce localmente y nunca se sube. Hasta ahí, bien. Pero la Web Speech API se implementa de forma diferente entre navegadores. En Chrome y Edge en 2026, la API normalmente envía audio decodificado al servicio en la nube de speech-to-text de Google para procesamiento de transcripción; el audio se cifra en tránsito y según la política de Google no se usa para publicidad o entrenamiento, pero brevemente sale de tu dispositivo. En Firefox y Safari el reconocimiento normalmente corre localmente sin audio saliendo del dispositivo, con precisión ligeramente menor. La herramienta no puede controlar qué ruta toma el navegador; eso es una decisión a nivel de navegador.

Para transcripción verificablemente local en contenido sensible, dos opciones. Primera, usa Firefox o Safari para reconocimiento local en el navegador (calidad menor pero totalmente local). Segunda, usa una herramienta basada en Whisper de escritorio o WebGPU que ejecute el modelo de código abierto de OpenAI localmente; whisper.cpp, MacWhisper y números crecientes de ports de Whisper basados en navegador ofrecen transcripción totalmente local de alta calidad a partir de 2026. Para vídeo rutinario no sensible (conferencias públicas, contenido casual), el camino asistido por la nube Chrome/Edge de esta herramienta es conveniente y de alta calidad.

Cuándo otra herramienta es la elección correcta

Otras preguntas frecuentes

¿Qué navegador da la mejor transcripción?

Chrome y Edge típicamente tienen la mayor precisión porque usan el motor de voz en la nube de Google, que está entrenado en el dataset más grande y se actualiza regularmente. El trade-off es que el audio brevemente sale de tu dispositivo. Firefox usa reconocimiento local para algunos idiomas, con precisión algo menor pero localidad completa. La implementación de Safari ha mejorado hasta 2025 pero históricamente tenía cobertura de idiomas limitada. Para conveniencia y precisión en contenido no sensible, Chrome. Para localidad verificable, Firefox o Whisper local.

¿Por qué la transcripción a veces reinicia o tiene huecos?

La Web Speech API limita las sesiones individuales de reconocimiento a 5 a 15 minutos según el navegador. Para vídeos más largos, la herramienta reinicia la sesión en segundo plano de forma transparente. Cada reinicio introduce un breve hueco (menos de un segundo) durante el cual una palabra o dos pueden perderse. Para vídeos largos, espera unas pocas de estas microinterrupciones y revisa la transcripción cuidadosamente para rellenar o corregir.

¿Puedo generar subtítulos SRT o VTT?

Sí. Usa el desplegable de descarga para elegir formato .srt o .vtt. La herramienta genera timestamps sintéticos basados en conteo de palabras y velocidad de habla promedio (alrededor de 150 palabras por minuto). Para timing de subtítulos preciso al fotograma, pasa el SRT por una herramienta como Subtitle Edit o Aegisub después, donde puedes ajustar el timing por línea de oído. O usa una herramienta basada en Whisper que proporciona timestamps precisos nativamente.

¿Qué tasa de error de palabra debería esperar?

Para audio en inglés de un solo hablante claro sin ruido de fondo en Chrome, espera 3 a 8% de tasa de error de palabra (así una transcripción de 1000 palabras tiene 30 a 80 palabras erróneas o faltantes). Para audio más ruidoso o hablantes no nativos, 10 a 25%. Para conversación multihablante enredada, 25%+. Siempre revisa antes de publicar; nunca envíes transcripciones crudas como contenido final.

¿Hay un equivalente de escritorio o línea de comandos?

Sí. OpenAI Whisper (el modelo de código abierto y la CLI) es el estándar de facto para transcripción offline: whisper input.mp4 --language en --output_format srt. MacWhisper, BuzzWhisper y Whisper Notes lo envuelven con UIs amigables. whisper.cpp proporciona una implementación C++ rápida. Las APIs en la nube como Google Speech-to-Text, AWS Transcribe y Deepgram ofrecen acceso de pago por minuto a motores de nivel superior. Para procesamiento local con máxima calidad, Whisper es la respuesta.

¿Puede el motor manejar code-switching (múltiples idiomas)?

Mal. La Web Speech API se compromete a una locale de idioma por sesión. Si tu hablante mezcla inglés y español, elegir en-US transcribe el inglés correctamente y destroza el español (y viceversa). Para audio multilingüe o con code-switching, Whisper large-v3 maneja muchos idiomas en una sola pasada y detecta idioma por segmento; esa es actualmente la mejor opción para contenido con code-switching.

Herramientas relacionadas