Transcription vocale en ligne, gratuite

Convertissez votre voix en texte instantanément. Aucun envoi, aucune inscription, aucun compte, parlez simplement et laissez la transcription s'afficher.

🔒 Utilise la reconnaissance vocale intégrée de votre navigateur
Nombre de mots : 0
Remarque : Cet outil nécessite un navigateur moderne prenant en charge la reconnaissance vocale (Chrome, Edge, Safari, Opera). L'accès au microphone est requis et ne sera utilisé que pendant votre session d'enregistrement.

Comment ça marche

  1. Autorisez l'accès au microphone : Accordez l'autorisation d'utiliser votre microphone lorsque le navigateur le demande, l'audio reste local et n'est jamais envoyé à un serveur.
  2. Lancez la dictée : Cliquez sur « Démarrer » et parlez clairement. Vos mots apparaissent en temps réel, au fil de leur reconnaissance par l'API Web Speech.
  3. Corrigez la transcription : Le texte reconnu est entièrement modifiable, corrigez les erreurs directement dans la zone de texte.
  4. Copiez ou téléchargez : Copiez la transcription dans votre presse-papiers, ou téléchargez-la en fichier .txt.

Pourquoi utiliser la transcription vocale ?

La dictée vocale est 3 à 4 × plus rapide que la frappe pour la plupart des gens, et elle réduit les troubles musculo-squelettiques liés à une utilisation prolongée du clavier. La reconnaissance vocale dans le navigateur, via l'API Web Speech, est désormais disponible sur les navigateurs basés sur Chromium et sur Safari, et offre une bonne précision pour de nombreuses langues, sans service serveur. Utilisez-la pour dicter des e-mails, des notes, des articles de blog ou des saisies de formulaires, ou pour obtenir une transcription approximative d'un audio que vous écoutez. En matière d'accessibilité, la saisie vocale est essentielle pour les utilisateurs ayant des difficultés motrices ou pour qui taper au clavier est difficile.

Fonctionnalités

Ce que la reconnaissance vocale du navigateur fait vraiment

La reconnaissance vocale (aussi appelée Automatic Speech Recognition, ASR) convertit l’audio parlé en texte écrit. Les systèmes ASR modernes combinent un modèle acoustique (comment les sons correspondent aux phonèmes), un modèle de langue (comment les mots et phrases vont ensemble dans la vraie langue) et un décodeur qui trouve la séquence de mots la plus probable étant donné l’audio. La révolution des années 2010 était l’apprentissage profond : les réseaux de neurones ont remplacé les modèles de Markov cachés précédents pour la modélisation acoustique et linguistique, faisant passer la précision d’environ 80% sur la parole propre à 95%+ sur l’audio mono-locuteur coopératif. En 2022, Whisper d’OpenAI a démontré qu’un seul modèle multilingue pouvait égaler ou dépasser les systèmes spécialisés à travers 99 langues.

Cet outil utilise l’API Web Speech du navigateur, le standard W3C pour la reconnaissance vocale dans le navigateur introduit dans Chrome 25 (2013) et progressivement ajouté à Edge, Safari et la plupart des navigateurs Chromium. L’API expose un objet SpeechRecognition qui diffuse l’audio du microphone vers le service vocal que le navigateur implémente : Chrome et Edge acheminent l’audio vers les services vocaux cloud de Google et Microsoft respectivement, tandis que Safari sur iOS 17+ et macOS Sonoma+ exécute la reconnaissance sur l’appareil. Firefox n’implémente pas du tout l’API Web Speech. Cette distinction de confidentialité compte : l’outil lui-même s’exécute dans votre navigateur et ne voit jamais votre audio, mais Chrome et Edge transmettent bien l’audio aux serveurs Google/Microsoft pour traitement.

Pour la plupart des utilisateurs, le compromis par rapport à la frappe est dramatique. La vitesse de frappe moyenne pour les travailleurs de bureau est de 40 à 60 mots par minute ; la parole moyenne est de 130 à 150 mots par minute. La dictée vocale est 2x à 3x plus rapide pour obtenir le texte initial, avec la mise en garde que l’édition ensuite reste habituellement de la frappe. L’entrée vocale compte aussi pour l’accessibilité : les utilisateurs avec des handicaps moteurs, des troubles musculo-squelettiques ou des blessures temporaires peuvent produire du texte par la voix quand la frappe est impraticable. Pour les apprenants de langues, entendre si le système a correctement reconnu votre parole fournit un retour sur la prononciation. Pour la capture de réunions, les transcriptions en temps réel aident participants et collègues absents.

Comment cet outil fonctionne en coulisses

Quand vous cliquez sur « Démarrer l’enregistrement », la page crée un objet SpeechRecognition (ou webkitSpeechRecognition dans les anciens Chrome) et appelle start(). Le navigateur demande la permission du microphone si elle n’a pas été précédemment accordée, puis commence à diffuser l’audio capturé vers le service vocal système. Le tag de langue que vous avez sélectionné (par ex. en-US, fr-FR, zh-CN) est passé au service afin qu’il charge les modèles acoustique et linguistique appropriés.

Le navigateur livre deux types de résultats à la page : les résultats provisoires (meilleures suppositions partielles, mises à jour 5 à 20 fois par seconde au fur et à mesure que de nouvel audio arrive) et les résultats finaux (transcription verrouillée d’une énonciation complète, généralement émise quand le locuteur fait une pause un moment). La zone de texte de l’outil affiche les résultats provisoires dans un style plus clair et verrouille les résultats finaux à leur arrivée. Le compteur de mots se met à jour uniquement à partir des résultats finaux, donc il ne scintille pas quand les suppositions provisoires changent. Le mode continu (une option à cocher) redémarre automatiquement la session de reconnaissance si le navigateur la termine après un long silence, ce qui est courant sur Chrome mais rare sur Safari.

Une fois que vous arrêtez, la transcription reste dans la zone de texte, entièrement modifiable. Les boutons Copier et Télécharger fonctionnent sur le texte dans la zone de texte ; les deux se font localement sans implication du serveur. L’outil lui-même ne transmet jamais votre audio ou transcription nulle part ; la seule activité réseau est ce que le navigateur fait en interne pour communiquer avec le service vocal de Google ou Microsoft (ou aucun, sur Safari). Votre transcription n’est jamais stockée : rafraîchissez la page et elle est partie sauf si vous l’avez d’abord copiée ou téléchargée.

Brève histoire de la reconnaissance vocale

Flux du monde réel

Pièges courants et ce qu’ils signifient

Confidentialité : la gestion audio diffère selon le navigateur

Contrairement à la plupart des outils sur ce site qui s’exécutent entièrement côté client, les propriétés de confidentialité de l’API Web Speech dépendent du navigateur que vous utilisez. Chrome et Edge transmettent votre audio microphone aux services de reconnaissance vocale cloud de Google et Microsoft. Les deux entreprises déclarent qu’elles ne stockent pas l’audio à long terme pour les requêtes de reconnaissance vocale (par opposition aux profils vocaux entraînés par l’utilisateur), mais l’audio quitte bien votre appareil, traverse leurs réseaux et est traité sur leurs serveurs. Safari sur iOS 17+ et macOS Sonoma+ exécute la reconnaissance vocale entièrement sur l’appareil en utilisant l’ASR sur appareil d’Apple, donc votre audio ne quitte jamais votre Mac ou iPhone. Les anciennes versions de Safari et autres navigateurs Apple peuvent différer.

Absolutool lui-même ne reçoit rien. La page appelle l’API vocale du navigateur, le navigateur gère l’audio (soit sur l’appareil soit via le service cloud de son vendeur), et seul le texte de transcription résultant revient dans la page. L’outil affiche ensuite le texte et vous laisse le copier ou le télécharger ; aucun appel serveur n’est fait par la page elle-même. Pour les utilisateurs gérant du contenu confidentiel, l’approche recommandée est : (1) utiliser Safari sur un appareil Apple récent pour le traitement sur appareil, ou (2) utiliser un outil hors ligne dédié comme Whisper s’exécutant localement, ou (3) accepter que Chrome et Edge acheminent l’audio par Google/Microsoft et les utiliser uniquement pour du contenu non sensible.

Quand un autre outil est le bon choix

Autres questions fréquentes

Pourquoi la reconnaissance s’arrête-t-elle après une minute ?

Chrome et Edge ont des délais d’expiration intégrés qui terminent les sessions Web Speech après environ 30 à 60 secondes, destinés à économiser la bande passante et empêcher l’enregistrement indéfini accidentel. Activez le mode continu dans l’outil pour redémarrer automatiquement la reconnaissance quand cela arrive. Le mode continu introduit de brèves pauses entre les sessions (généralement moins d’une seconde), ce qui peut résulter en mots manqués occasionnels aux jointures. Safari gère les sessions plus longues avec plus de grâce sans délais d’expiration.

Pourquoi la précision est-elle inférieure à ce que j’attendais ?

Trois facteurs : (1) Votre accent peut différer des données d’entraînement ; envisagez d’essayer une variante de langue plus proche (par ex. en-IN pour l’anglais indien, en-AU pour l’australien). (2) Le bruit de fond, la distance du microphone et la qualité audio comptent ; pièce calme et microphone proche produisent une précision de 95%+, tandis qu’un environnement bruyant et un microphone éloigné descendent à 70% ou moins. (3) Le vocabulaire spécialisé (termes techniques, noms propres, noms de marque) est plus difficile que la parole générale ; pour la dictée professionnelle de haute précision, la formation du locuteur de Dragon et le vocabulaire personnalisé valent le coût.

Puis-je dicter la ponctuation par la voix ?

Pas dans cet outil. L’API Web Speech n’interprète pas les commandes vocales pour la ponctuation ; dire « point » insère le mot « point », non une marque « . ». Certains outils de dictée dédiés (Dragon, Apple Dictation, Windows Voice Access) reconnaissent les commandes de ponctuation parlées. Pour la dictée basée sur navigateur, le flux typique est : dicter les mots, puis ajouter la ponctuation dans une passe d’édition au clavier. Les modèles modernes de forme longue (Whisper) ajoutent souvent la ponctuation automatiquement basée sur les motifs de parole.

Cela fonctionne-t-il sur iPhone ?

Oui, sur iOS 14.5 et plus tard via Safari. iOS 17 a apporté la reconnaissance vocale sur appareil via l’implémentation de l’API Web Speech de Safari, donc votre audio ne quitte jamais votre iPhone. Pour la dictée soutenue sur iPhone ou iPad, vous pouvez aussi utiliser la dictée iOS système (appuyez sur l’icône microphone sur le clavier), qui fonctionne dans tout champ de texte à travers l’OS.

Pourquoi Firefox ne prend-il pas cela en charge ?

Mozilla n’a pas implémenté l’API Web Speech dans Firefox, principalement en raison de préoccupations de confidentialité avec le modèle d’acheminement cloud utilisé par Chrome et Edge, et la complexité d’ingénierie d’implémenter une alternative préservant la confidentialité. Les utilisateurs Firefox sur le suivi de bugs de Mozilla ont demandé le support vocal pendant des années ; la position officielle de Mozilla est que la reconnaissance vocale locale significative nécessite des ressources importantes et ils ne l’ont pas priorisé. Pour l’instant, les utilisateurs Firefox cherchant l’entrée vocale devraient utiliser Chrome, Edge, Safari ou une solution à l’échelle du système comme la dictée au niveau OS.

Puis-je transcrire un fichier audio préenregistré ?

Pas directement. L’API Web Speech n’accepte que l’entrée microphone en direct, pas les téléversements de fichiers. Pour transcrire un fichier enregistré, le contournement est de lire le fichier audio à travers les haut-parleurs de votre ordinateur (ou utiliser un logiciel de routage audio comme Soundflower ou BlackHole) pendant que cet outil écoute via le microphone. Cela perd une certaine précision en raison de la distorsion acoustique. Pour la transcription de haute qualité d’audio enregistré, utilisez un outil dédié : Whisper (hors ligne, gratuit), Otter.ai, ou un service de transcription comme Rev. Pour la transcription informelle occasionnelle, l’astuce de lecture-à-travers-microphone fonctionne.

Outils associés