Transcription vidéo → texte, gratuite

Transcrivez la parole d'un fichier vidéo en texte via la reconnaissance vocale du navigateur. Fonctionne avec MP4, WebM, MOV et plus.

Votre fichier vidéo reste sur votre appareil
Déposez un fichier vidéo ici ou cliquez pour parcourir

MP4, WebM, MOV, OGG, AVI

Ce que la reconnaissance vocale depuis vidéo fait vraiment

Transcrire une vidéo signifie transformer la forme d’onde audio enregistrée en texte. Un moteur de reconnaissance vocale effectue trois tâches à la fois : la modélisation acoustique (mapper les fréquences sonores aux phonèmes, les plus petites unités sonores d’une langue), la modélisation linguistique (décider quelles séquences de phonèmes forment des mots probables et quelles séquences de mots forment des phrases probables dans la langue choisie), et la ponctuation/capitalisation (insertion de virgules, points et capitalisation appropriées). Les moteurs modernes utilisent des réseaux neuronaux (modèles acoustiques entraînés sur des dizaines de milliers d’heures de parole étiquetée, modèles linguistiques entraînés sur des milliards de mots de texte). Le résultat est une transcription qui approche ce qu’un humain écrirait, la qualité dépendant de la clarté audio, de la correspondance d’accent aux données d’entraînement, et du nombre d’homophones ambigus utilisés par le locuteur.

Cet outil utilise la Web Speech API intégrée au navigateur (spécifiquement l’interface SpeechRecognition), la norme W3C qui expose le moteur de reconnaissance du système d’exploitation ou du fournisseur du navigateur. Sur Chrome et Edge l’API route typiquement l’audio par le service cloud de reconnaissance vocale de Google pour le traitement (l’audio sort, la transcription revient) ; sur Firefox et Safari le moteur tourne localement avec des caractéristiques de qualité quelque peu différentes. La transcription revient comme une séquence de résultats partiels (mises à jour au fur et à mesure du traitement audio) et de résultats finaux (segments transcrits verrouillés). Cet outil affiche les deux pendant la transcription.

La sélection de langue compte beaucoup. Un moteur de reconnaissance vocale réglé pour l’anglais fera des erreurs sur du français ou du mandarin. La liste déroulante affiche 20+ locales de langue (en-US, en-GB, es-ES, fr-FR, de-DE, ja-JP, zh-CN et plus). Choisissez la locale qui correspond au dialecte de votre locuteur pour de meilleurs résultats. Les changements de langue en cours de clip (une seule vidéo avec plusieurs langues) donnent typiquement de mauvais résultats parce que le moteur s’engage sur un modèle acoustique/linguistique pour toute la session.

Comment cet outil fonctionne en coulisses

Quand vous déposez une vidéo, le navigateur la charge dans un HTMLVideoElement via URL.createObjectURL() ce qui garde le fichier local. La lecture est mise en pause initialement pour que vous puissiez choisir la langue et cliquer sur Démarrer.

Au clic sur Démarrer, l’outil appelle new SpeechRecognition() (ou webkitSpeechRecognition sur Chrome legacy), règle recognition.continuous = true et recognition.interimResults = true, règle la langue à votre locale sélectionnée, et appelle recognition.start() tout en jouant simultanément la vidéo avec son audio routé vers le pipeline d’entrée audio du navigateur. Le moteur de reconnaissance consomme l’audio par morceaux et émet des événements result au fur et à mesure qu’il transcrit.

Chaque événement result porte un tableau d’alternatives classées par confiance. L’outil prend l’alternative supérieure pour chaque résultat final et l’ajoute à la boîte de transcription modifiable. Les résultats intermédiaires (encore en cours d’affinement) s’affichent en texte plus clair. Quand la vidéo se termine ou que vous cliquez sur Arrêter, recognition.stop() finalise la session. Les options d’export écrivent la transcription en texte brut (.txt) ou avec des horodatages synthétiques en sous-titres SRT/VTT, tous construits en mémoire et offerts via téléchargement blob.

Brève histoire de la reconnaissance vocale

Comment ça marche

  1. Importez une vidéo : sélectionnez un fichier vidéo depuis votre appareil ou collez une URL vidéo.
  2. Choisissez la langue : sélectionnez la langue parlée dans la vidéo pour une meilleure précision de transcription.
  3. Transcrivez : la piste audio est extraite et traitée par le moteur de reconnaissance vocale pour produire une transcription.
  4. Éditez et exportez : relisez et corrigez la transcription, puis copiez-la ou téléchargez-la en .txt ou en fichier de sous-titres .srt.

Pourquoi utiliser vidéo → texte ?

Transcrire une vidéo en texte améliore l'accessibilité (sous-titres pour les personnes sourdes et malentendantes), le SEO (contenu recherchable issu de la vidéo) et le réemploi (transformer un webinaire en article de blog ou en matériel de cours). Créer une transcription manuellement prend environ 4 à 6 heures par heure de vidéo. La transcription automatisée avec un outil basé sur le navigateur réduit ce temps considérablement tout en préservant la confidentialité, la vidéo ne quitte jamais votre appareil. Les transcriptions sont aussi utiles pour parcourir du contenu, créer des sous-titres, générer des résumés vidéo et répondre aux exigences de conformité en matière de sous-titrage.

Formats de sortie

Flux de transcription du monde réel

Pièges courants et ce qu’ils signifient

Confidentialité : nuancée

Cet outil est plus nuancé que les autres outils de ce site, donc l’image de confidentialité mérite une attention explicite. Le fichier vidéo lui-même ne quitte jamais votre appareil : il est chargé comme blob URL local dans le navigateur, joué localement, et jamais téléversé. Jusque-là tout va bien. Mais la Web Speech API est implémentée différemment selon les navigateurs. Sur Chrome et Edge en 2026, l’API envoie typiquement de l’audio décodé au service cloud de reconnaissance vocale de Google pour le traitement de transcription ; l’audio est chiffré en transit et selon la politique de Google n’est pas utilisé pour la publicité ou l’entraînement, mais il quitte brièvement votre appareil. Sur Firefox et Safari la reconnaissance tourne généralement localement sans audio quittant l’appareil, à précision légèrement inférieure. L’outil ne peut pas contrôler quel chemin le navigateur prend ; c’est une décision au niveau navigateur.

Pour une transcription vérifiablement locale sur du contenu sensible, deux options. Premièrement, utilisez Firefox ou Safari pour la reconnaissance locale dans le navigateur (qualité inférieure mais entièrement locale). Deuxièmement, utilisez un outil basé sur Whisper de bureau ou WebGPU qui exécute le modèle open-source d’OpenAI localement ; whisper.cpp, MacWhisper et un nombre croissant de ports Whisper basés navigateur offrent une transcription entièrement locale de haute qualité à partir de 2026. Pour la vidéo routine non sensible (conférences publiques, contenu décontracté), le chemin assisté par cloud Chrome/Edge de cet outil est pratique et de haute qualité.

Quand un autre outil est le bon choix

Autres questions fréquentes

Quel navigateur donne la meilleure transcription ?

Chrome et Edge ont typiquement la plus haute précision parce qu’ils utilisent le moteur vocal cloud de Google, qui est entraîné sur le plus grand jeu de données et mis à jour régulièrement. Le compromis est que l’audio quitte brièvement votre appareil. Firefox utilise la reconnaissance locale pour certaines langues, avec une précision quelque peu inférieure mais une locality complète. L’implémentation de Safari s’est améliorée jusqu’en 2025 mais avait historiquement une couverture de langue limitée. Pour la commodité et la précision sur le contenu non sensible, Chrome. Pour une locality vérifiable, Firefox ou Whisper local.

Pourquoi la transcription redémarre-t-elle parfois ou a-t-elle des interruptions ?

La Web Speech API plafonne les sessions de reconnaissance individuelles à 5 à 15 minutes selon le navigateur. Pour les vidéos plus longues, l’outil redémarre la session en arrière-plan de manière transparente. Chaque redémarrage introduit une brève interruption (moins d’une seconde) pendant laquelle un mot ou deux peut être manqué. Pour les longues vidéos, attendez-vous à une poignée de ces micro-interruptions et relisez la transcription attentivement pour combler ou corriger.

Puis-je générer des sous-titres SRT ou VTT ?

Oui. Utilisez le menu déroulant de téléchargement pour choisir le format .srt ou .vtt. L’outil génère des horodatages synthétiques basés sur le nombre de mots et la vitesse de parole moyenne (environ 150 mots par minute). Pour un timing de sous-titres précis à l’image près, faites passer le SRT par un outil comme Subtitle Edit ou Aegisub par la suite, où vous pouvez ajuster le timing par ligne à l’oreille. Ou utilisez un outil basé sur Whisper qui fournit des horodatages précis nativement.

Quel taux d’erreur de mots dois-je attendre ?

Pour de l’audio anglais à un seul locuteur clair sans bruit de fond sur Chrome, attendez 3 à 8 % de taux d’erreur de mots (donc une transcription de 1000 mots a 30 à 80 mots erronés ou manquants). Pour un audio plus bruyant ou des locuteurs non natifs, 10 à 25 %. Pour une conversation multi-locuteurs emmêlée, 25 %+. Relisez toujours avant publication ; n’expédiez jamais les transcriptions brutes comme contenu final.

Existe-t-il un équivalent de bureau ou en ligne de commande ?

Oui. OpenAI Whisper (le modèle open-source et la CLI) est le standard de facto pour la transcription hors ligne : whisper input.mp4 --language en --output_format srt. MacWhisper, BuzzWhisper et Whisper Notes l’enveloppent avec des UIs amicales. whisper.cpp fournit une implémentation C++ rapide. Les APIs cloud comme Google Speech-to-Text, AWS Transcribe et Deepgram offrent un accès au tarif à la minute à des moteurs de niveau supérieur. Pour un traitement local avec qualité maximale, Whisper est la réponse.

Le moteur peut-il gérer le code-switching (plusieurs langues) ?

Mal. La Web Speech API s’engage sur une locale de langue par session. Si votre locuteur mélange anglais et espagnol, choisir en-US transcrit l’anglais correctement et massacre l’espagnol (et vice versa). Pour de l’audio multilingue ou code-switché, Whisper large-v3 gère plusieurs langues en un seul passage et détecte la langue par segment ; c’est actuellement la meilleure option pour le contenu code-switching.

Outils associés