Transcripción gratuita de vídeo a texto
Transcribe la voz de un archivo de vídeo a texto mediante el reconocimiento de voz del navegador. Funciona con MP4, WebM, MOV y más.
MP4, WebM, MOV, OGG, AVI
Nota: la calidad del reconocimiento de voz depende de tu navegador y de la claridad del audio. Chrome y Edge suelen dar los mejores resultados. La API Web Speech puede enviar datos de audio al proveedor del navegador para su procesamiento.
Qué hace realmente el reconocimiento de voz desde vídeo
Transcribir vídeo significa convertir la forma de onda de audio grabada en texto. Un motor de voz a texto realiza tres tareas a la vez: modelado acústico (mapear frecuencias de sonido a fonemas, las unidades de sonido más pequeñas de un idioma), modelado de lenguaje (decidir qué secuencias de fonemas forman palabras probables y qué secuencias de palabras forman oraciones probables en el idioma elegido), y puntuación y mayúsculas (insertar comas, puntos y mayúsculas donde corresponda). Los motores modernos usan redes neuronales (modelos acústicos entrenados en decenas de miles de horas de habla etiquetada, modelos de lenguaje entrenados en miles de millones de palabras de texto). El resultado es una transcripción que aproxima lo que un humano escribiría, con calidad dependiendo de la claridad del audio, la coincidencia de acento con los datos de entrenamiento y cuántos homófonos ambiguos usa el hablante.
Esta herramienta usa la Web Speech API incorporada del navegador (específicamente la interfaz SpeechRecognition), el estándar W3C que expone el motor de reconocimiento del sistema operativo o del proveedor del navegador. En Chrome y Edge la API normalmente enruta el audio a través del servicio en la nube de speech-to-text de Google para procesamiento (el audio sale, la transcripción vuelve); en Firefox y Safari el motor corre localmente con características de calidad algo diferentes. La transcripción vuelve como una secuencia de resultados parciales (actualizaciones mientras se procesa más audio) y resultados finales (segmentos transcritos bloqueados). Esta herramienta muestra ambos durante la transcripción.
La selección de idioma importa mucho. Un motor de voz a texto sintonizado para inglés transcribirá mal audio en francés o mandarín. El menú desplegable muestra 20+ locales de idioma (en-US, en-GB, es-ES, fr-FR, de-DE, ja-JP, zh-CN y más). Elige el locale que coincida con el dialecto de tu hablante para mejores resultados. Los cambios de idioma a mitad de clip (un solo vídeo con múltiples idiomas) suelen dar pobres resultados porque el motor se compromete con un modelo acústico/lenguaje para toda la sesión.
Cómo funciona esta herramienta por dentro
Cuando sueltas un vídeo, el navegador lo carga en un HTMLVideoElement vía URL.createObjectURL() lo que mantiene el archivo local. La reproducción se pausa inicialmente para que puedas elegir el idioma y hacer clic en Iniciar.
Al hacer clic en Iniciar, la herramienta llama new SpeechRecognition() (o webkitSpeechRecognition en Chrome legacy), establece recognition.continuous = true y recognition.interimResults = true, establece el idioma a tu locale seleccionado y llama recognition.start() mientras simultáneamente reproduce el vídeo con su audio enrutado al pipeline de entrada de audio del navegador. El motor de reconocimiento consume el audio en fragmentos y emite eventos result mientras transcribe.
Cada evento result lleva un array de alternativas ordenadas por confianza. La herramienta toma la alternativa superior para cada resultado final y la añade al cuadro de transcripción editable. Los resultados intermedios (aún refinándose) se muestran en texto más claro. Cuando el vídeo termina o haces clic en Detener, recognition.stop() finaliza la sesión. Las opciones de exportación escriben la transcripción como texto plano (.txt) o con timestamps sintéticos como subtítulos SRT/VTT, todo construido en memoria y ofrecido vía descarga blob.
Breve historia del reconocimiento de voz
- Audrey, 1952.Bell Labs construye Audrey, el primer sistema de reconocimiento de voz automático, capaz de reconocer dígitos únicos pronunciados por un único hablante entrenado. El «vocabulario» era 0 a 9; la precisión degradaba marcadamente con hablantes diferentes.
- Dictado DRAGON, años 90.Dragon Systems lanza Dragon Dictate para consumidores (1990) y Dragon NaturallySpeaking (1997), permitiendo dictado continuo con alrededor del 80 al 95% de precisión tras entrenar con la voz del usuario. Limitado a hablantes únicos y entornos silenciosos.
- Búsqueda por voz de Google, 2008.Google lanza búsqueda por voz en iPhone, luego en todas partes. El reconocimiento basado en la nube entrenado en miles de millones de consultas de voz hace práctico el reconocimiento independiente del hablante sin entrenamiento por usuario. Comienza la era de «OK Google» y «Hey Siri».
- Revolución del deep learning, 2012.Hinton et al. publican papers revolucionarios mostrando que las redes neuronales profundas superan dramáticamente los enfoques tradicionales de Modelo Oculto de Markov para el modelado acústico. Las tasas de error de palabra caen del 25 al 30% a menos del 10% en pocos años.
- Web Speech API ratificada, 2014 a 2025.El W3C publica la especificación Web Speech API, exponiendo el reconocimiento de voz del proveedor del navegador a JavaScript. Chrome envía la API primero, seguido de Edge, Safari y Firefox. Las implementaciones varían en calidad y postura de privacidad (procesamiento en nube vs local).
- Whisper y ASR de código abierto, 2022 a 2026.OpenAI lanza Whisper (2022), un modelo de reconocimiento de voz automático de código abierto de 1500 millones de parámetros entrenado en 680.000 horas de datos multilingües. WebGPU lleva Whisper al navegador en 2024 a 2026 con ports WASM whisper.cpp, ofreciendo transcripción totalmente local de alta calidad sin llamadas a la nube.
Cómo funciona
- Importa un vídeo: selecciona un archivo de vídeo de tu dispositivo o pega una URL de vídeo.
- Elige el idioma: selecciona el idioma hablado en el vídeo para una mejor precisión de la transcripción.
- Transcribe: la pista de audio se extrae y procesa mediante el motor de reconocimiento de voz para producir una transcripción.
- Edita y exporta: revisa y corrige la transcripción, luego cópiala o descárgala en .txt o como archivo de subtítulos .srt.
¿Por qué usar vídeo a texto?
Transcribir un vídeo a texto mejora la accesibilidad (subtítulos para personas sordas y con dificultades auditivas), el SEO (contenido buscable a partir del vídeo) y la reutilización (transformar un webinar en un artículo de blog o en material de curso). Crear una transcripción manualmente toma entre 4 y 6 horas por hora de vídeo. La transcripción automatizada con una herramienta basada en el navegador reduce ese tiempo considerablemente y además preserva la privacidad: el vídeo nunca sale de tu dispositivo. Las transcripciones también son útiles para recorrer contenido, crear subtítulos, generar resúmenes de vídeo y cumplir con requisitos de subtitulado.
Formatos de salida
- Texto plano (.txt): transcripción limpia para documentos y artículos de blog
- Subtítulos SRT (.srt): archivo de subtítulos con marcas de tiempo para reproductores de vídeo
- Subtítulos VTT (.vtt): formato WebVTT para las pistas de vídeo HTML5
- Privacidad ante todo: todo el procesamiento se queda en tu dispositivo
Flujos de transcripción del mundo real
- Subtítulos para accesibilidad.Añadir subtítulos a vídeo de redes sociales, material de formación o grabaciones de webinars apoya a espectadores sordos y con dificultades auditivas y cumple requisitos de cumplimiento ADA/WCAG para contenido público. Exporta la transcripción como SRT o VTT, luego sube junto al archivo de vídeo a la mayoría de reproductores modernos (YouTube, Vimeo, incluso reproductores HTML5 personalizados).
- Reutilizar vídeo en artículos de blog.Una entrevista de 30 minutos, podcast o webinar transcrito te da de 3.000 a 5.000 palabras de material fuente. Edita ligeramente, añade encabezados y una tesis, y tienes un artículo de blog o LinkedIn. La transcripción también ayuda al SEO porque los motores de búsqueda pueden indexar el contenido textual que de otra forma está bloqueado en vídeo.
- Archivos buscables.Las reuniones, conferencias o sesiones de formación grabadas se vuelven buscables al transcribirse. Puedes encontrar «la parte donde discutimos precios» en segundos en lugar de hacer scrub por horas de vídeo. Guarda transcripciones junto a vídeos en una carpeta de documentos o base de conocimiento.
- Sacar citas para marketing.Los testimonios de clientes y entrevistas de expertos grabados en vídeo pueden minarse para líneas citables. La transcripción saca a la luz las palabras exactas; puedes luego diseñar una tarjeta de cita o publicación social que referencia al vídeo para contexto. Más rápido que volver a ver para encontrar esa buena frase.
- Ayuda para aprendizaje de idiomas.Ver vídeo en idioma extranjero con una transcripción generada ayuda a los aprendices a captar palabras que perdieron. La precisión de transcripción no es perfecta, pero las palabras que oyes correctamente ayudan a anclar las que el motor entendió mal. Para estudiantes de idiomas menos comunes, las exportaciones de transcripción pueden alimentar herramientas de tarjetas como Anki.
- Notas de reuniones desde grabaciones.Reuniones grabadas de Zoom, Teams o en persona pueden transcribirse para notas de seguimiento. Edita la transcripción para extraer elementos de acción, decisiones y compromisos de seguimiento. Más fácil que tomar notas durante la reunión y más preciso que confiar en la memoria después.
Trampas comunes y qué significan
- El desajuste de acento y dialecto perjudica la precisión.Un motor de voz entrenado principalmente en inglés de EE.UU. producirá más errores en inglés indio, inglés escocés o hablantes no nativos. El desplegable de locale te deja elegir en-GB vs en-US, pero la cobertura de acentos regionales fuertes es desigual. Los hablantes con acentos neutros o que coinciden con datos de entrenamiento transcriben con más precisión.
- El ruido de fondo degrada la calidad rápidamente.Ambiente de café, tráfico, ventiladores, música detrás del diálogo: cada uno añade errores. El motor no puede separar voces del ruido como puede un humano enfocado. Audio fuente limpio (buen micrófono, ruido mínimo) da los mejores resultados. Para metraje ruidoso, espera tasas de error de palabra del 10 al 25%.
- Múltiples hablantes hablando uno sobre otro.La Web Speech API no realiza diarización de hablantes (separar quién dijo qué). Las entrevistas de dos personas donde los hablantes no se superponen se transcriben aceptablemente como una transcripción fluida. Los paneles de tres o debates contenciosos producen un enredo. Para transcripciones multihablante precisas, usa Whisper o un servicio de pago como Otter que incluye diarización.
- Los homófonos se adivinan.«Hecho» vs «echo», «hay» vs «ahí» vs «ay», nombres propios vs palabras comunes: el motor adivina por contexto. A menudo adivina bien. A veces elige el homófono equivocado y tu transcripción necesita revisión. Siempre revisa y edita transcripciones antes de publicar; no envíes salida cruda de máquina.
- La jerga técnica y nombres propios confunden a los motores.Términos específicos del dominio (médicos, legales, científicos, nombres de marcas, nombres de personajes) a menudo transcriben mal porque no estaban bien representados en datos de entrenamiento. Espera arreglar vocabulario especializado manualmente. Buscar y reemplazar es tu amigo para mistranscripciones sistemáticas.
- Los vídeos largos chocan con los límites de sesión de reconocimiento.La Web Speech API limita las sesiones individuales a 5 a 15 minutos dependiendo del navegador. Para vídeos más largos, la herramienta reinicia la sesión de reconocimiento periódicamente (con una breve interrupción), que puede dejar caer una palabra o dos en cada reinicio. Para vídeos de una hora, espera unas pocas microinterrupciones; revisa la transcripción cuidadosamente.
Privacidad: matizada
Esta herramienta tiene más matices que otras herramientas en este sitio, así que la imagen de privacidad merece atención explícita. El archivo de vídeo en sí nunca sale de tu dispositivo: se carga como una blob URL local en el navegador, se reproduce localmente y nunca se sube. Hasta ahí, bien. Pero la Web Speech API se implementa de forma diferente entre navegadores. En Chrome y Edge en 2026, la API normalmente envía audio decodificado al servicio en la nube de speech-to-text de Google para procesamiento de transcripción; el audio se cifra en tránsito y según la política de Google no se usa para publicidad o entrenamiento, pero brevemente sale de tu dispositivo. En Firefox y Safari el reconocimiento normalmente corre localmente sin audio saliendo del dispositivo, con precisión ligeramente menor. La herramienta no puede controlar qué ruta toma el navegador; eso es una decisión a nivel de navegador.
Para transcripción verificablemente local en contenido sensible, dos opciones. Primera, usa Firefox o Safari para reconocimiento local en el navegador (calidad menor pero totalmente local). Segunda, usa una herramienta basada en Whisper de escritorio o WebGPU que ejecute el modelo de código abierto de OpenAI localmente; whisper.cpp, MacWhisper y números crecientes de ports de Whisper basados en navegador ofrecen transcripción totalmente local de alta calidad a partir de 2026. Para vídeo rutinario no sensible (conferencias públicas, contenido casual), el camino asistido por la nube Chrome/Edge de esta herramienta es conveniente y de alta calidad.
Cuándo otra herramienta es la elección correcta
- Contenido sensible que requiere procesamiento totalmente local.Si el audio que estás transcribiendo contiene material amparado por el secreto profesional abogado-cliente, información médica, estrategia interna de empresa u otro contenido que no debe salir de tu dispositivo bajo ninguna circunstancia, usa una herramienta local basada en Whisper (MacWhisper, whisper.cpp, etc.) en lugar de la Web Speech API en navegadores que enrutan a la nube.
- Conversaciones multihablante que requieren diarización.Las etiquetas de hablante («Alicia:», «Bob:») requieren diarización, que la Web Speech API no proporciona. Usa Otter.ai, Rev, Descript o herramientas basadas en Whisper con diarización pyannote. Vale el coste por minuto para podcasts, entrevistas, declaraciones.
- Máxima precisión en contenido técnico.Los motores de voz especializados sintonizados para dominios médicos, legales o científicos (Nuance Dragon Medical, Lexile, Verbit) tienen tasas de error mucho menores en jerga. Para transcripción crítica donde los errores cuestan dinero, los servicios especializados de pago superan a las herramientas gratuitas de propósito general.
- Contenido de muy largo formato (horas).Para transcripción de varias horas (conferencias completas, reuniones de día completo, procedimientos legales), subir por lotes a un servicio de pago es más confiable que confiar en límites de sesión del navegador y reinicios ad hoc. Otter, Rev, Trint, Descript todos manejan contenido de una hora o más sin las roturas de sesión que encuentra esta herramienta.
Otras preguntas frecuentes
¿Qué navegador da la mejor transcripción?
Chrome y Edge típicamente tienen la mayor precisión porque usan el motor de voz en la nube de Google, que está entrenado en el dataset más grande y se actualiza regularmente. El trade-off es que el audio brevemente sale de tu dispositivo. Firefox usa reconocimiento local para algunos idiomas, con precisión algo menor pero localidad completa. La implementación de Safari ha mejorado hasta 2025 pero históricamente tenía cobertura de idiomas limitada. Para conveniencia y precisión en contenido no sensible, Chrome. Para localidad verificable, Firefox o Whisper local.
¿Por qué la transcripción a veces reinicia o tiene huecos?
La Web Speech API limita las sesiones individuales de reconocimiento a 5 a 15 minutos según el navegador. Para vídeos más largos, la herramienta reinicia la sesión en segundo plano de forma transparente. Cada reinicio introduce un breve hueco (menos de un segundo) durante el cual una palabra o dos pueden perderse. Para vídeos largos, espera unas pocas de estas microinterrupciones y revisa la transcripción cuidadosamente para rellenar o corregir.
¿Puedo generar subtítulos SRT o VTT?
Sí. Usa el desplegable de descarga para elegir formato .srt o .vtt. La herramienta genera timestamps sintéticos basados en conteo de palabras y velocidad de habla promedio (alrededor de 150 palabras por minuto). Para timing de subtítulos preciso al fotograma, pasa el SRT por una herramienta como Subtitle Edit o Aegisub después, donde puedes ajustar el timing por línea de oído. O usa una herramienta basada en Whisper que proporciona timestamps precisos nativamente.
¿Qué tasa de error de palabra debería esperar?
Para audio en inglés de un solo hablante claro sin ruido de fondo en Chrome, espera 3 a 8% de tasa de error de palabra (así una transcripción de 1000 palabras tiene 30 a 80 palabras erróneas o faltantes). Para audio más ruidoso o hablantes no nativos, 10 a 25%. Para conversación multihablante enredada, 25%+. Siempre revisa antes de publicar; nunca envíes transcripciones crudas como contenido final.
¿Hay un equivalente de escritorio o línea de comandos?
Sí. OpenAI Whisper (el modelo de código abierto y la CLI) es el estándar de facto para transcripción offline: whisper input.mp4 --language en --output_format srt. MacWhisper, BuzzWhisper y Whisper Notes lo envuelven con UIs amigables. whisper.cpp proporciona una implementación C++ rápida. Las APIs en la nube como Google Speech-to-Text, AWS Transcribe y Deepgram ofrecen acceso de pago por minuto a motores de nivel superior. Para procesamiento local con máxima calidad, Whisper es la respuesta.
¿Puede el motor manejar code-switching (múltiples idiomas)?
Mal. La Web Speech API se compromete a una locale de idioma por sesión. Si tu hablante mezcla inglés y español, elegir en-US transcribe el inglés correctamente y destroza el español (y viceversa). Para audio multilingüe o con code-switching, Whisper large-v3 maneja muchos idiomas en una sola pasada y detecta idioma por segmento; esa es actualmente la mejor opción para contenido con code-switching.