Transcription vocale en ligne, gratuite
Convertissez votre voix en texte instantanément. Aucun envoi, aucune inscription, aucun compte, parlez simplement et laissez la transcription s'afficher.
Comment ça marche
- Autorisez l'accès au microphone : Accordez l'autorisation d'utiliser votre microphone lorsque le navigateur le demande, l'audio reste local et n'est jamais envoyé à un serveur.
- Lancez la dictée : Cliquez sur « Démarrer » et parlez clairement. Vos mots apparaissent en temps réel, au fil de leur reconnaissance par l'API Web Speech.
- Corrigez la transcription : Le texte reconnu est entièrement modifiable, corrigez les erreurs directement dans la zone de texte.
- Copiez ou téléchargez : Copiez la transcription dans votre presse-papiers, ou téléchargez-la en fichier .txt.
Pourquoi utiliser la transcription vocale ?
La dictée vocale est 3 à 4 × plus rapide que la frappe pour la plupart des gens, et elle réduit les troubles musculo-squelettiques liés à une utilisation prolongée du clavier. La reconnaissance vocale dans le navigateur, via l'API Web Speech, est désormais disponible sur les navigateurs basés sur Chromium et sur Safari, et offre une bonne précision pour de nombreuses langues, sans service serveur. Utilisez-la pour dicter des e-mails, des notes, des articles de blog ou des saisies de formulaires, ou pour obtenir une transcription approximative d'un audio que vous écoutez. En matière d'accessibilité, la saisie vocale est essentielle pour les utilisateurs ayant des difficultés motrices ou pour qui taper au clavier est difficile.
Fonctionnalités
- Transcription en temps réel, les mots apparaissent à mesure que vous parlez.
- Prise en charge multilingue, plus de 30 langues et dialectes pris en charge.
- Mode continu, dictez sans devoir faire de pause pour cliquer.
- Priorité à la confidentialité, l'audio est traité localement par le navigateur.
- Sortie modifiable, corrigez les erreurs de reconnaissance directement dans le texte.
Ce que la reconnaissance vocale du navigateur fait vraiment
La reconnaissance vocale (aussi appelée Automatic Speech Recognition, ASR) convertit l’audio parlé en texte écrit. Les systèmes ASR modernes combinent un modèle acoustique (comment les sons correspondent aux phonèmes), un modèle de langue (comment les mots et phrases vont ensemble dans la vraie langue) et un décodeur qui trouve la séquence de mots la plus probable étant donné l’audio. La révolution des années 2010 était l’apprentissage profond : les réseaux de neurones ont remplacé les modèles de Markov cachés précédents pour la modélisation acoustique et linguistique, faisant passer la précision d’environ 80% sur la parole propre à 95%+ sur l’audio mono-locuteur coopératif. En 2022, Whisper d’OpenAI a démontré qu’un seul modèle multilingue pouvait égaler ou dépasser les systèmes spécialisés à travers 99 langues.
Cet outil utilise l’API Web Speech du navigateur, le standard W3C pour la reconnaissance vocale dans le navigateur introduit dans Chrome 25 (2013) et progressivement ajouté à Edge, Safari et la plupart des navigateurs Chromium. L’API expose un objet SpeechRecognition qui diffuse l’audio du microphone vers le service vocal que le navigateur implémente : Chrome et Edge acheminent l’audio vers les services vocaux cloud de Google et Microsoft respectivement, tandis que Safari sur iOS 17+ et macOS Sonoma+ exécute la reconnaissance sur l’appareil. Firefox n’implémente pas du tout l’API Web Speech. Cette distinction de confidentialité compte : l’outil lui-même s’exécute dans votre navigateur et ne voit jamais votre audio, mais Chrome et Edge transmettent bien l’audio aux serveurs Google/Microsoft pour traitement.
Pour la plupart des utilisateurs, le compromis par rapport à la frappe est dramatique. La vitesse de frappe moyenne pour les travailleurs de bureau est de 40 à 60 mots par minute ; la parole moyenne est de 130 à 150 mots par minute. La dictée vocale est 2x à 3x plus rapide pour obtenir le texte initial, avec la mise en garde que l’édition ensuite reste habituellement de la frappe. L’entrée vocale compte aussi pour l’accessibilité : les utilisateurs avec des handicaps moteurs, des troubles musculo-squelettiques ou des blessures temporaires peuvent produire du texte par la voix quand la frappe est impraticable. Pour les apprenants de langues, entendre si le système a correctement reconnu votre parole fournit un retour sur la prononciation. Pour la capture de réunions, les transcriptions en temps réel aident participants et collègues absents.
Comment cet outil fonctionne en coulisses
Quand vous cliquez sur « Démarrer l’enregistrement », la page crée un objet SpeechRecognition (ou webkitSpeechRecognition dans les anciens Chrome) et appelle start(). Le navigateur demande la permission du microphone si elle n’a pas été précédemment accordée, puis commence à diffuser l’audio capturé vers le service vocal système. Le tag de langue que vous avez sélectionné (par ex. en-US, fr-FR, zh-CN) est passé au service afin qu’il charge les modèles acoustique et linguistique appropriés.
Le navigateur livre deux types de résultats à la page : les résultats provisoires (meilleures suppositions partielles, mises à jour 5 à 20 fois par seconde au fur et à mesure que de nouvel audio arrive) et les résultats finaux (transcription verrouillée d’une énonciation complète, généralement émise quand le locuteur fait une pause un moment). La zone de texte de l’outil affiche les résultats provisoires dans un style plus clair et verrouille les résultats finaux à leur arrivée. Le compteur de mots se met à jour uniquement à partir des résultats finaux, donc il ne scintille pas quand les suppositions provisoires changent. Le mode continu (une option à cocher) redémarre automatiquement la session de reconnaissance si le navigateur la termine après un long silence, ce qui est courant sur Chrome mais rare sur Safari.
Une fois que vous arrêtez, la transcription reste dans la zone de texte, entièrement modifiable. Les boutons Copier et Télécharger fonctionnent sur le texte dans la zone de texte ; les deux se font localement sans implication du serveur. L’outil lui-même ne transmet jamais votre audio ou transcription nulle part ; la seule activité réseau est ce que le navigateur fait en interne pour communiquer avec le service vocal de Google ou Microsoft (ou aucun, sur Safari). Votre transcription n’est jamais stockée : rafraîchissez la page et elle est partie sauf si vous l’avez d’abord copiée ou téléchargée.
Brève histoire de la reconnaissance vocale
- Audrey, IBM 1952.Bell Labs construit le premier système de reconnaissance vocale, « Audrey », qui pouvait reconnaître les chiffres parlés 0 à 9 d’un seul locuteur entraîné. Le système remplissait une pièce et prenait plusieurs secondes par chiffre. IBM suit en 1962 avec le Shoebox, reconnaissant 16 mots anglais parlés.
- Modèles de Markov cachés, années 1970 et 1980.Les chercheurs d’IBM, CMU et Bell Labs appliquent les modèles de Markov cachés (HMMs) à la parole, améliorant dramatiquement la précision et la taille du vocabulaire. Le Harpy de Carnegie Mellon (1976) reconnaît environ 1 000 mots de plusieurs locuteurs. La technique reste le fondement de la reconnaissance vocale jusqu’en 2010.
- Dragon NaturallySpeaking, 1997.Dragon Systems lance le premier logiciel de dictée commercial largement utilisé pour les PC Windows. La formation du locuteur (lire à haute voix un passage pour calibrer à votre voix) prend 30 minutes ; la précision atteint environ 95% dans des conditions optimales. Devient le standard pour la transcription juridique, la dictée médicale et l’accessibilité tout au long des années 2000.
- Apple Siri, 2011.Apple acquiert Siri Inc. et intègre la reconnaissance vocale dans l’iPhone 4S. Pour la première fois, la reconnaissance vocale est une fonctionnalité grand public, accédée par des centaines de millions d’utilisateurs quotidiennement. Google Now (2012) et Amazon Alexa (2014) suivent.
- API Web Speech dans les navigateurs, 2012 à 2013.Google ajoute
webkitSpeechRecognitionà Chrome 25, bientôt standardisé comme l’API Web Speech W3C. Les pages web obtiennent l’accès à la même reconnaissance vocale qui alimente Google search et Now, sans nécessiter d’application native. L’adoption s’étend à travers Chrome, Edge, Safari et autres navigateurs Chromium au cours de la décennie suivante. - Whisper et ASR sur l’appareil, 2022 à 2024.OpenAI publie Whisper (septembre 2022), un modèle de reconnaissance vocale multilingue open source entraîné sur 680 000 heures d’audio. Approche la précision au niveau humain à travers 99 langues. La dictée sur appareil d’Apple sur iOS 17 et macOS Sonoma (2023) supprime le besoin d’envoyer l’audio aux serveurs d’Apple. La tendance vers la reconnaissance vocale sur appareil, préservant la confidentialité, s’accélère.
Flux du monde réel
- Dicter des e-mails et messages.Pour les écrits plus longs où la frappe est lente, la reconnaissance vocale rédige le contenu en 2x à 3x moins de temps que l’entrée clavier. Flux commun : dicter le premier brouillon, puis le lire et corriger les erreurs au clavier. Fonctionne bien pour les e-mails, messages Slack, publications de réseaux sociaux et tout texte où les idées coulent plus facilement verbalement qu’au clavier.
- Prise de notes de réunion et de cours.Placez votre ordinateur portable près d’un haut-parleur (ou de vous-même) et laissez la transcription tourner pendant une réunion ou un cours. La sortie capture plus de détails verbatim que les notes manuscrites ne le peuvent. Pour les réunions complexes avec plusieurs locuteurs et accents, les outils dédiés comme Otter.ai produisent des transcriptions plus propres ; pour les cours en solo, la dictée navigateur est suffisante et gratuite.
- Accessibilité pour handicaps moteurs.Pour les utilisateurs avec arthrite, troubles musculo-squelettiques, paralysie ou autres limitations motrices, l’entrée vocale n’est pas une commodité mais une méthode d’accès principale. L’API Web Speech du navigateur fonctionne sur tout appareil avec un microphone, ne nécessite aucun matériel spécialisé et opère instantanément. Pour un usage intensif, les outils d’accessibilité dédiés (Dragon, Apple Voice Control, Windows Voice Access) fournissent une intégration système plus profonde incluant le contrôle du système d’exploitation lui-même, pas seulement la saisie de texte.
- Journalisme et transcription d’interviews.Les reporters utilisent la dictée vocale pour rédiger des articles entre les interviews et pour produire des transcriptions brutes des interviews enregistrées. L’outil navigateur n’est pas un service de transcription complet (locuteur unique, source audio unique), mais pour les flux « donnez-moi un point de départ que je peux éditer », il économise un temps substantiel comparé à taper la transcription entière depuis la lecture.
- Retour de prononciation pour l’apprentissage des langues.Réglez la langue sur celle que vous apprenez, parlez une phrase, et relisez ce que le système a transcrit. Si le texte reconnu correspond à ce que vous vouliez dire, votre prononciation était claire ; s’il diffère, vous avez un retour spécifique sur les sons qui nécessitent du travail. Gratuit, immédiat, et opère dans plus de 30 langues.
- Remplissage de formulaire pour les entrées longues.Pour les candidatures d’emploi, formulaires de retour client ou tickets de support avec de longs champs de texte, la dictée produit la sortie plus vite que la frappe tout en gardant vos mains libres pour naviguer la page. Particulièrement utile sur les tablettes et téléphones où les claviers à l’écran ralentissent l’entrée. Parlez la réponse, collez-la dans le champ du formulaire, puis révisez.
Pièges courants et ce qu’ils signifient
- Les accents et le bruit réduisent la précision.Les modèles de reconnaissance vocale sont entraînés principalement sur certaines variétés d’accents (anglais américain général, anglais britannique RP, etc.). Les accents régionaux forts, les locuteurs de seconde langue et le bruit de fond peuvent faire chuter la précision de 95%+ à 70% ou moins. Pour les accents non standards, parlez légèrement plus lentement et clairement, rapprochez-vous du microphone, et envisagez un outil dédié entraîné sur votre accent ou un avec adaptation au locuteur comme Dragon.
- La ponctuation est absente ou peu fiable.L’API Web Speech n’insère pas la ponctuation automatiquement ; dire « point » ou « point d’interrogation » insère le mot réel, non la marque de ponctuation. Certains outils de dictée spécialisés (Dragon, Apple Dictation) interprètent les commandes vocales pour la ponctuation, mais l’API navigateur ne le fait pas. Prévoyez d’ajouter la ponctuation lors de la passe d’édition après la dictée.
- Les délais d’expiration du navigateur terminent les sessions de manière inattendue.Chrome termine la reconnaissance vocale après environ 30 à 60 secondes de silence ou parfois en milieu d’énonciation. L’option de mode continu de l’outil redémarre automatiquement la reconnaissance, mais vous pouvez remarquer de brèves pauses ou des mots manqués aux jointures. Pour les longues sessions de dictée, attendez-vous à des écarts occasionnels. Safari gère les sessions plus longues avec plus de grâce.
- Firefox ne prend pas en charge l’API Web Speech.Mozilla a choisi de ne pas implémenter l’API Web Speech dans Firefox, citant des préoccupations de confidentialité et de complexité. Les utilisateurs Firefox voient « reconnaissance vocale non supportée » en ouvrant cet outil. Pour les utilisateurs Firefox dépendants de l’accessibilité, c’est un écart significatif ; Chrome, Edge ou un outil dédié intégré au lecteur d’écran est requis.
- Chrome et Edge envoient l’audio à Google ou Microsoft.Contrairement à la plupart des outils navigateur sur ce site, l’API Web Speech dans Chrome et Edge ne s’exécute pas sur l’appareil ; votre audio est transmis aux services vocaux de Google ou Microsoft pour traitement. Pour du contenu confidentiel (dépositions légales, dictée médicale, planification propriétaire), c’est une considération de confidentialité significative. Utilisez Safari (qui est sur appareil sur iOS 17+ et macOS Sonoma+) ou un outil hors ligne dédié comme Whisper s’exécutant localement.
- Les homophones et noms propres font trébucher le modèle.« leur / leurs », « à / a », des noms comme « Jean / Jeanne » sont devinés à partir du contexte, parfois à tort. Le jargon technique, les noms de marque, les mots étrangers et le vocabulaire peu commun sont particulièrement sujets aux erreurs. Prévoyez de relire, surtout pour du contenu qui sera publié ou envoyé sans révision supplémentaire.
Confidentialité : la gestion audio diffère selon le navigateur
Contrairement à la plupart des outils sur ce site qui s’exécutent entièrement côté client, les propriétés de confidentialité de l’API Web Speech dépendent du navigateur que vous utilisez. Chrome et Edge transmettent votre audio microphone aux services de reconnaissance vocale cloud de Google et Microsoft. Les deux entreprises déclarent qu’elles ne stockent pas l’audio à long terme pour les requêtes de reconnaissance vocale (par opposition aux profils vocaux entraînés par l’utilisateur), mais l’audio quitte bien votre appareil, traverse leurs réseaux et est traité sur leurs serveurs. Safari sur iOS 17+ et macOS Sonoma+ exécute la reconnaissance vocale entièrement sur l’appareil en utilisant l’ASR sur appareil d’Apple, donc votre audio ne quitte jamais votre Mac ou iPhone. Les anciennes versions de Safari et autres navigateurs Apple peuvent différer.
Absolutool lui-même ne reçoit rien. La page appelle l’API vocale du navigateur, le navigateur gère l’audio (soit sur l’appareil soit via le service cloud de son vendeur), et seul le texte de transcription résultant revient dans la page. L’outil affiche ensuite le texte et vous laisse le copier ou le télécharger ; aucun appel serveur n’est fait par la page elle-même. Pour les utilisateurs gérant du contenu confidentiel, l’approche recommandée est : (1) utiliser Safari sur un appareil Apple récent pour le traitement sur appareil, ou (2) utiliser un outil hors ligne dédié comme Whisper s’exécutant localement, ou (3) accepter que Chrome et Edge acheminent l’audio par Google/Microsoft et les utiliser uniquement pour du contenu non sensible.
Quand un autre outil est le bon choix
- Whisper pour la transcription hors ligne.Whisper d’OpenAI (open source, gratuit) s’exécute entièrement sur votre machine locale après un téléchargement unique. Le modèle gère 99 langues avec une précision approchant le niveau humain pour de l’audio clair. Nécessite Python ou l’un des nombreux wrappers GUI (Whisper Desktop, MacWhisper, Buzz) et une machine raisonnablement puissante pour l’opération en temps réel. Pour le contenu confidentiel, l’opération hors ligne ou la transcription par lots de fichiers audio enregistrés, Whisper est le bon outil.
- Dragon NaturallySpeaking pour la dictée professionnelle.Dragon (maintenant détenu par Nuance/Microsoft, 200 $ à 500 $ selon l’édition) fournit la plus haute précision pour la dictée professionnelle soutenue, avec formation du locuteur, vocabulaire personnalisé, commandes vocales pour la ponctuation et le formatage, et intégration profonde avec Microsoft Word et autres applications. Pour la transcription juridique, la dictée médicale ou quiconque dicte pendant des heures par jour, le prix est justifié.
- Otter.ai pour les transcriptions de réunions multi-locuteurs.Otter.ai (freemium, 8,33 $/mois pour Pro) se spécialise dans la transcription de réunions avec diarisation des locuteurs (savoir qui a dit quoi), ponctuation automatique, résumé et intégration avec Zoom, Teams et Google Meet. Pour les réunions avec plusieurs participants où l’attribution compte, Otter est le bon outil. Compromis de confidentialité : les réunions sont stockées sur les serveurs d’Otter.
- Dictée OS native pour l’entrée vocale à l’échelle du système.Windows Voice Access, macOS Voice Control / Enhanced Dictation et la dictée système iOS / Android fonctionnent partout où vous pouvez taper, pas seulement dans une seule page web. Pour les utilisateurs d’accessibilité qui ont besoin d’entrée vocale à travers tout l’OS, la dictée native est plus pratique qu’un outil navigateur. macOS Enhanced Dictation et la dictée iOS 17+ sont sur appareil.
Autres questions fréquentes
Pourquoi la reconnaissance s’arrête-t-elle après une minute ?
Chrome et Edge ont des délais d’expiration intégrés qui terminent les sessions Web Speech après environ 30 à 60 secondes, destinés à économiser la bande passante et empêcher l’enregistrement indéfini accidentel. Activez le mode continu dans l’outil pour redémarrer automatiquement la reconnaissance quand cela arrive. Le mode continu introduit de brèves pauses entre les sessions (généralement moins d’une seconde), ce qui peut résulter en mots manqués occasionnels aux jointures. Safari gère les sessions plus longues avec plus de grâce sans délais d’expiration.
Pourquoi la précision est-elle inférieure à ce que j’attendais ?
Trois facteurs : (1) Votre accent peut différer des données d’entraînement ; envisagez d’essayer une variante de langue plus proche (par ex. en-IN pour l’anglais indien, en-AU pour l’australien). (2) Le bruit de fond, la distance du microphone et la qualité audio comptent ; pièce calme et microphone proche produisent une précision de 95%+, tandis qu’un environnement bruyant et un microphone éloigné descendent à 70% ou moins. (3) Le vocabulaire spécialisé (termes techniques, noms propres, noms de marque) est plus difficile que la parole générale ; pour la dictée professionnelle de haute précision, la formation du locuteur de Dragon et le vocabulaire personnalisé valent le coût.
Puis-je dicter la ponctuation par la voix ?
Pas dans cet outil. L’API Web Speech n’interprète pas les commandes vocales pour la ponctuation ; dire « point » insère le mot « point », non une marque « . ». Certains outils de dictée dédiés (Dragon, Apple Dictation, Windows Voice Access) reconnaissent les commandes de ponctuation parlées. Pour la dictée basée sur navigateur, le flux typique est : dicter les mots, puis ajouter la ponctuation dans une passe d’édition au clavier. Les modèles modernes de forme longue (Whisper) ajoutent souvent la ponctuation automatiquement basée sur les motifs de parole.
Cela fonctionne-t-il sur iPhone ?
Oui, sur iOS 14.5 et plus tard via Safari. iOS 17 a apporté la reconnaissance vocale sur appareil via l’implémentation de l’API Web Speech de Safari, donc votre audio ne quitte jamais votre iPhone. Pour la dictée soutenue sur iPhone ou iPad, vous pouvez aussi utiliser la dictée iOS système (appuyez sur l’icône microphone sur le clavier), qui fonctionne dans tout champ de texte à travers l’OS.
Pourquoi Firefox ne prend-il pas cela en charge ?
Mozilla n’a pas implémenté l’API Web Speech dans Firefox, principalement en raison de préoccupations de confidentialité avec le modèle d’acheminement cloud utilisé par Chrome et Edge, et la complexité d’ingénierie d’implémenter une alternative préservant la confidentialité. Les utilisateurs Firefox sur le suivi de bugs de Mozilla ont demandé le support vocal pendant des années ; la position officielle de Mozilla est que la reconnaissance vocale locale significative nécessite des ressources importantes et ils ne l’ont pas priorisé. Pour l’instant, les utilisateurs Firefox cherchant l’entrée vocale devraient utiliser Chrome, Edge, Safari ou une solution à l’échelle du système comme la dictée au niveau OS.
Puis-je transcrire un fichier audio préenregistré ?
Pas directement. L’API Web Speech n’accepte que l’entrée microphone en direct, pas les téléversements de fichiers. Pour transcrire un fichier enregistré, le contournement est de lire le fichier audio à travers les haut-parleurs de votre ordinateur (ou utiliser un logiciel de routage audio comme Soundflower ou BlackHole) pendant que cet outil écoute via le microphone. Cela perd une certaine précision en raison de la distorsion acoustique. Pour la transcription de haute qualité d’audio enregistré, utilisez un outil dédié : Whisper (hors ligne, gratuit), Otter.ai, ou un service de transcription comme Rev. Pour la transcription informelle occasionnelle, l’astuce de lecture-à-travers-microphone fonctionne.