Transcription vidéo → texte, gratuite
Transcrivez la parole d'un fichier vidéo en texte via la reconnaissance vocale du navigateur. Fonctionne avec MP4, WebM, MOV et plus.
MP4, WebM, MOV, OGG, AVI
Remarque : la qualité de la reconnaissance vocale dépend de votre navigateur et de la clarté audio. Chrome et Edge donnent généralement les meilleurs résultats. L'API Web Speech peut envoyer des données audio au fournisseur du navigateur pour traitement.
Ce que la reconnaissance vocale depuis vidéo fait vraiment
Transcrire une vidéo signifie transformer la forme d’onde audio enregistrée en texte. Un moteur de reconnaissance vocale effectue trois tâches à la fois : la modélisation acoustique (mapper les fréquences sonores aux phonèmes, les plus petites unités sonores d’une langue), la modélisation linguistique (décider quelles séquences de phonèmes forment des mots probables et quelles séquences de mots forment des phrases probables dans la langue choisie), et la ponctuation/capitalisation (insertion de virgules, points et capitalisation appropriées). Les moteurs modernes utilisent des réseaux neuronaux (modèles acoustiques entraînés sur des dizaines de milliers d’heures de parole étiquetée, modèles linguistiques entraînés sur des milliards de mots de texte). Le résultat est une transcription qui approche ce qu’un humain écrirait, la qualité dépendant de la clarté audio, de la correspondance d’accent aux données d’entraînement, et du nombre d’homophones ambigus utilisés par le locuteur.
Cet outil utilise la Web Speech API intégrée au navigateur (spécifiquement l’interface SpeechRecognition), la norme W3C qui expose le moteur de reconnaissance du système d’exploitation ou du fournisseur du navigateur. Sur Chrome et Edge l’API route typiquement l’audio par le service cloud de reconnaissance vocale de Google pour le traitement (l’audio sort, la transcription revient) ; sur Firefox et Safari le moteur tourne localement avec des caractéristiques de qualité quelque peu différentes. La transcription revient comme une séquence de résultats partiels (mises à jour au fur et à mesure du traitement audio) et de résultats finaux (segments transcrits verrouillés). Cet outil affiche les deux pendant la transcription.
La sélection de langue compte beaucoup. Un moteur de reconnaissance vocale réglé pour l’anglais fera des erreurs sur du français ou du mandarin. La liste déroulante affiche 20+ locales de langue (en-US, en-GB, es-ES, fr-FR, de-DE, ja-JP, zh-CN et plus). Choisissez la locale qui correspond au dialecte de votre locuteur pour de meilleurs résultats. Les changements de langue en cours de clip (une seule vidéo avec plusieurs langues) donnent typiquement de mauvais résultats parce que le moteur s’engage sur un modèle acoustique/linguistique pour toute la session.
Comment cet outil fonctionne en coulisses
Quand vous déposez une vidéo, le navigateur la charge dans un HTMLVideoElement via URL.createObjectURL() ce qui garde le fichier local. La lecture est mise en pause initialement pour que vous puissiez choisir la langue et cliquer sur Démarrer.
Au clic sur Démarrer, l’outil appelle new SpeechRecognition() (ou webkitSpeechRecognition sur Chrome legacy), règle recognition.continuous = true et recognition.interimResults = true, règle la langue à votre locale sélectionnée, et appelle recognition.start() tout en jouant simultanément la vidéo avec son audio routé vers le pipeline d’entrée audio du navigateur. Le moteur de reconnaissance consomme l’audio par morceaux et émet des événements result au fur et à mesure qu’il transcrit.
Chaque événement result porte un tableau d’alternatives classées par confiance. L’outil prend l’alternative supérieure pour chaque résultat final et l’ajoute à la boîte de transcription modifiable. Les résultats intermédiaires (encore en cours d’affinement) s’affichent en texte plus clair. Quand la vidéo se termine ou que vous cliquez sur Arrêter, recognition.stop() finalise la session. Les options d’export écrivent la transcription en texte brut (.txt) ou avec des horodatages synthétiques en sous-titres SRT/VTT, tous construits en mémoire et offerts via téléchargement blob.
Brève histoire de la reconnaissance vocale
- Audrey, 1952.Bell Labs construit Audrey, le premier système de reconnaissance vocale automatique, capable de reconnaître des chiffres uniques prononcés par un seul locuteur entraîné. Le « vocabulaire » était 0 à 9 ; la précision se dégradait fortement avec d’autres locuteurs.
- Dictée DRAGON, années 1990.Dragon Systems publie Dragon Dictate pour les consommateurs (1990) et Dragon NaturallySpeaking (1997), permettant la dictée continue avec environ 80 à 95 % de précision après entraînement sur la voix de l’utilisateur. Limité à des locuteurs uniques et des environnements calmes.
- Google Voice Search, 2008.Google lance la recherche vocale sur iPhone, puis partout. La reconnaissance basée sur le cloud entraînée sur des milliards de requêtes vocales rend la reconnaissance indépendante du locuteur pratique sans entraînement par utilisateur. L’ère du « OK Google » et « Hey Siri » commence.
- Révolution du deep learning, 2012.Hinton et al. publient des articles révolutionnaires montrant que les réseaux neuronaux profonds surpassent dramatiquement les approches traditionnelles à Modèle de Markov caché pour la modélisation acoustique. Les taux d’erreur de mots tombent de 25 à 30 % à moins de 10 % en quelques années.
- Web Speech API ratifiée, 2014 à 2025.Le W3C publie la spec Web Speech API, exposant la reconnaissance vocale du fournisseur de navigateur à JavaScript. Chrome livre l’API en premier, suivi par Edge, Safari et Firefox. Les implémentations varient en qualité et posture de confidentialité (cloud vs local).
- Whisper et ASR open-source, 2022 à 2026.OpenAI publie Whisper (2022), un modèle de reconnaissance vocale automatique open-source à 1,5 milliard de paramètres entraîné sur 680 000 heures de données multilingues. WebGPU amène Whisper au navigateur en 2024 à 2026 avec des ports WASM whisper.cpp, offrant une transcription entièrement locale de haute qualité sans appels cloud.
Comment ça marche
- Importez une vidéo : sélectionnez un fichier vidéo depuis votre appareil ou collez une URL vidéo.
- Choisissez la langue : sélectionnez la langue parlée dans la vidéo pour une meilleure précision de transcription.
- Transcrivez : la piste audio est extraite et traitée par le moteur de reconnaissance vocale pour produire une transcription.
- Éditez et exportez : relisez et corrigez la transcription, puis copiez-la ou téléchargez-la en .txt ou en fichier de sous-titres .srt.
Pourquoi utiliser vidéo → texte ?
Transcrire une vidéo en texte améliore l'accessibilité (sous-titres pour les personnes sourdes et malentendantes), le SEO (contenu recherchable issu de la vidéo) et le réemploi (transformer un webinaire en article de blog ou en matériel de cours). Créer une transcription manuellement prend environ 4 à 6 heures par heure de vidéo. La transcription automatisée avec un outil basé sur le navigateur réduit ce temps considérablement tout en préservant la confidentialité, la vidéo ne quitte jamais votre appareil. Les transcriptions sont aussi utiles pour parcourir du contenu, créer des sous-titres, générer des résumés vidéo et répondre aux exigences de conformité en matière de sous-titrage.
Formats de sortie
- Texte brut (.txt): transcription propre pour documents et articles de blog
- Sous-titres SRT (.srt): fichier de sous-titres horodaté pour lecteurs vidéo
- Sous-titres VTT (.vtt): format WebVTT pour les pistes vidéo HTML5
- Confidentialité d'abord: tout le traitement reste sur votre appareil
Flux de transcription du monde réel
- Sous-titres pour l’accessibilité.Ajouter des sous-titres à la vidéo de réseaux sociaux, au matériel de formation ou aux enregistrements de webinaires soutient les spectateurs sourds et malentendants et satisfait les exigences de conformité ADA/WCAG pour le contenu public. Exportez la transcription en SRT ou VTT, puis téléversez à côté du fichier vidéo dans la plupart des lecteurs modernes (YouTube, Vimeo, même les lecteurs HTML5 personnalisés).
- Recycler la vidéo en articles de blog.Une interview de 30 minutes, un podcast ou un webinaire transcrit vous donne 3 000 à 5 000 mots de matériel source. Éditez légèrement, ajoutez des titres et une thèse, et vous avez un article de blog ou LinkedIn. La transcription aide aussi le SEO parce que les moteurs de recherche peuvent indexer le contenu textuel autrement enfermé en vidéo.
- Archives consultables.Les réunions, conférences ou sessions de formation enregistrées deviennent consultables une fois transcrites. Vous pouvez trouver « la partie où nous avons parlé tarification » en quelques secondes plutôt qu’en parcourant des heures de vidéo. Sauvegardez les transcriptions à côté des vidéos dans un dossier de documents ou une base de connaissances.
- Extraire des citations pour le marketing.Les témoignages clients et les interviews d’experts filmés en vidéo peuvent être minés pour des lignes citables. La transcription fait remonter les mots exacts ; vous pouvez ensuite concevoir une carte de citation ou un post social qui renvoie à la vidéo pour le contexte. Plus rapide que de revisionner pour trouver cette bonne phrase.
- Aide à l’apprentissage des langues.Regarder une vidéo en langue étrangère avec une transcription générée aide les apprenants à attraper les mots qu’ils ont manqués. La précision de transcription n’est pas parfaite, mais les mots que vous entendez correctement aident à ancrer ceux que le moteur a mal compris. Pour les étudiants de langues moins courantes, les exports de transcription peuvent être versés dans des outils de cartes mémoires comme Anki.
- Notes de réunion depuis des enregistrements.Les réunions enregistrées Zoom, Teams ou en personne peuvent être transcrites pour des notes de suivi. Éditez la transcription pour extraire des éléments d’action, décisions et engagements de suivi. Plus facile que de prendre des notes pendant la réunion et plus précis que de se fier à la mémoire après.
Pièges courants et ce qu’ils signifient
- L’inadéquation d’accent et de dialecte nuit à la précision.Un moteur vocal entraîné principalement sur l’anglais US produira plus d’erreurs sur l’anglais indien, l’anglais écossais ou les locuteurs non natifs. La liste de locales vous laisse choisir en-GB vs en-US, mais la couverture des forts accents régionaux est inégale. Les locuteurs aux accents neutres ou correspondant aux données d’entraînement transcrivent plus précisément.
- Le bruit de fond dégrade rapidement la qualité.Ambiance de café, trafic, ventilateurs, musique derrière le dialogue : chacun ajoute des erreurs. Le moteur ne peut pas séparer les voix du bruit comme un humain concentré le peut. Un audio source propre (bon micro, bruit minimal) donne les meilleurs résultats. Pour les séquences bruyantes, attendez 10 à 25 % de taux d’erreur de mots.
- Plusieurs locuteurs qui parlent en même temps.La Web Speech API ne fait pas de diarisation des locuteurs (séparer qui a dit quoi). Les interviews à deux personnes où les locuteurs ne se chevauchent pas se transcrivent acceptablement comme une transcription fluide. Les panels à trois ou les débats houleux produisent un enchevêtrement. Pour des transcriptions multi-locuteurs précises, utilisez Whisper ou un service payant comme Otter qui inclut la diarisation.
- Les homophones se devinent.« Sont » vs « son », « ces » vs « ses » vs « c’est », noms propres vs mots communs : le moteur devine d’après le contexte. Souvent il devine bien. Parfois il choisit le mauvais homophone et votre transcription a besoin de relecture. Relisez et éditez toujours les transcriptions avant publication ; n’expédiez pas la sortie machine brute.
- Le jargon technique et les noms propres confondent les moteurs.Les termes spécifiques au domaine (médical, juridique, scientifique, noms de marque, noms de personnages) se transcrivent souvent mal parce qu’ils étaient peu représentés dans les données d’entraînement. Attendez-vous à corriger manuellement le vocabulaire spécialisé. Rechercher-remplacer est votre ami pour les transcriptions systématiquement erronées.
- Les longues vidéos atteignent les limites de session de reconnaissance.La Web Speech API plafonne les sessions individuelles à 5 à 15 minutes selon le navigateur. Pour les vidéos plus longues, l’outil redémarre la session de reconnaissance périodiquement (avec une brève interruption), ce qui peut faire tomber un mot ou deux à chaque redémarrage. Pour les vidéos d’une heure, attendez une poignée de micro-interruptions ; relisez la transcription attentivement.
Confidentialité : nuancée
Cet outil est plus nuancé que les autres outils de ce site, donc l’image de confidentialité mérite une attention explicite. Le fichier vidéo lui-même ne quitte jamais votre appareil : il est chargé comme blob URL local dans le navigateur, joué localement, et jamais téléversé. Jusque-là tout va bien. Mais la Web Speech API est implémentée différemment selon les navigateurs. Sur Chrome et Edge en 2026, l’API envoie typiquement de l’audio décodé au service cloud de reconnaissance vocale de Google pour le traitement de transcription ; l’audio est chiffré en transit et selon la politique de Google n’est pas utilisé pour la publicité ou l’entraînement, mais il quitte brièvement votre appareil. Sur Firefox et Safari la reconnaissance tourne généralement localement sans audio quittant l’appareil, à précision légèrement inférieure. L’outil ne peut pas contrôler quel chemin le navigateur prend ; c’est une décision au niveau navigateur.
Pour une transcription vérifiablement locale sur du contenu sensible, deux options. Premièrement, utilisez Firefox ou Safari pour la reconnaissance locale dans le navigateur (qualité inférieure mais entièrement locale). Deuxièmement, utilisez un outil basé sur Whisper de bureau ou WebGPU qui exécute le modèle open-source d’OpenAI localement ; whisper.cpp, MacWhisper et un nombre croissant de ports Whisper basés navigateur offrent une transcription entièrement locale de haute qualité à partir de 2026. Pour la vidéo routine non sensible (conférences publiques, contenu décontracté), le chemin assisté par cloud Chrome/Edge de cet outil est pratique et de haute qualité.
Quand un autre outil est le bon choix
- Contenu sensible exigeant un traitement entièrement local.Si l’audio que vous transcrivez contient du matériel couvert par le secret professionnel d’avocat-client, des informations médicales, une stratégie d’entreprise interne ou tout autre contenu qui ne doit pas quitter votre appareil en aucune circonstance, utilisez un outil local basé sur Whisper (MacWhisper, whisper.cpp, etc.) plutôt que la Web Speech API dans les navigateurs qui routent vers le cloud.
- Conversations multi-locuteurs nécessitant la diarisation.Les étiquettes de locuteur (« Alice : », « Bob : ») exigent la diarisation, que la Web Speech API ne fournit pas. Utilisez Otter.ai, Rev, Descript ou les outils basés sur Whisper avec diarisation pyannote. Vaut le coût par minute pour podcasts, interviews, dépositions.
- Précision maximale sur le contenu technique.Les moteurs vocaux spécialisés réglés pour les domaines médicaux, juridiques ou scientifiques (Nuance Dragon Medical, Lexile, Verbit) ont des taux d’erreur bien inférieurs sur le jargon. Pour les transcriptions critiques où les erreurs coûtent de l’argent, les services spécialisés payants battent les outils généralistes gratuits.
- Contenu très long format (heures).Pour la transcription de plusieurs heures (conférences complètes, réunions d’une journée, procédures juridiques), le téléversement par lot vers un service payant est plus fiable que de compter sur les limites de session du navigateur et les redémarrages ad-hoc. Otter, Rev, Trint, Descript gèrent tous le contenu d’une heure ou plus sans les coupures de session que cet outil rencontre.
Autres questions fréquentes
Quel navigateur donne la meilleure transcription ?
Chrome et Edge ont typiquement la plus haute précision parce qu’ils utilisent le moteur vocal cloud de Google, qui est entraîné sur le plus grand jeu de données et mis à jour régulièrement. Le compromis est que l’audio quitte brièvement votre appareil. Firefox utilise la reconnaissance locale pour certaines langues, avec une précision quelque peu inférieure mais une locality complète. L’implémentation de Safari s’est améliorée jusqu’en 2025 mais avait historiquement une couverture de langue limitée. Pour la commodité et la précision sur le contenu non sensible, Chrome. Pour une locality vérifiable, Firefox ou Whisper local.
Pourquoi la transcription redémarre-t-elle parfois ou a-t-elle des interruptions ?
La Web Speech API plafonne les sessions de reconnaissance individuelles à 5 à 15 minutes selon le navigateur. Pour les vidéos plus longues, l’outil redémarre la session en arrière-plan de manière transparente. Chaque redémarrage introduit une brève interruption (moins d’une seconde) pendant laquelle un mot ou deux peut être manqué. Pour les longues vidéos, attendez-vous à une poignée de ces micro-interruptions et relisez la transcription attentivement pour combler ou corriger.
Puis-je générer des sous-titres SRT ou VTT ?
Oui. Utilisez le menu déroulant de téléchargement pour choisir le format .srt ou .vtt. L’outil génère des horodatages synthétiques basés sur le nombre de mots et la vitesse de parole moyenne (environ 150 mots par minute). Pour un timing de sous-titres précis à l’image près, faites passer le SRT par un outil comme Subtitle Edit ou Aegisub par la suite, où vous pouvez ajuster le timing par ligne à l’oreille. Ou utilisez un outil basé sur Whisper qui fournit des horodatages précis nativement.
Quel taux d’erreur de mots dois-je attendre ?
Pour de l’audio anglais à un seul locuteur clair sans bruit de fond sur Chrome, attendez 3 à 8 % de taux d’erreur de mots (donc une transcription de 1000 mots a 30 à 80 mots erronés ou manquants). Pour un audio plus bruyant ou des locuteurs non natifs, 10 à 25 %. Pour une conversation multi-locuteurs emmêlée, 25 %+. Relisez toujours avant publication ; n’expédiez jamais les transcriptions brutes comme contenu final.
Existe-t-il un équivalent de bureau ou en ligne de commande ?
Oui. OpenAI Whisper (le modèle open-source et la CLI) est le standard de facto pour la transcription hors ligne : whisper input.mp4 --language en --output_format srt. MacWhisper, BuzzWhisper et Whisper Notes l’enveloppent avec des UIs amicales. whisper.cpp fournit une implémentation C++ rapide. Les APIs cloud comme Google Speech-to-Text, AWS Transcribe et Deepgram offrent un accès au tarif à la minute à des moteurs de niveau supérieur. Pour un traitement local avec qualité maximale, Whisper est la réponse.
Le moteur peut-il gérer le code-switching (plusieurs langues) ?
Mal. La Web Speech API s’engage sur une locale de langue par session. Si votre locuteur mélange anglais et espagnol, choisir en-US transcrit l’anglais correctement et massacre l’espagnol (et vice versa). Pour de l’audio multilingue ou code-switché, Whisper large-v3 gère plusieurs langues en un seul passage et détecte la langue par segment ; c’est actuellement la meilleure option pour le contenu code-switching.