Synthèse vocale (texte → voix), gratuite
Voix neuronale (Kokoro) et voix du navigateur · tout tourne localement dans votre navigateur.
À propos de cet outil
La voix neuronale (Kokoro IA) utilise un modèle de synthèse vocale de pointe à 82 millions de paramètres. Il s'exécute 100 % dans votre navigateur via WebAssembly et ONNX Runtime · aucun texte n'est envoyé à un serveur. Au premier usage, le modèle (~100 Mo) est téléchargé et mis en cache par votre navigateur. Ensuite, il se charge instantanément. Vous disposez de 13 voix aux accents américain et britannique, masculines et féminines, chacune avec une intonation et une prosodie naturelles. L'audio généré peut être lu puis téléchargé au format WAV.
Les voix du navigateur utilisent l'API Web Speech intégrée à votre système. Elles sont instantanées et sans téléchargement, mais la qualité et la disponibilité des voix dépendent de votre OS et de votre navigateur. Chrome propose généralement le plus grand choix. Idéal pour des aperçus rapides et les tests d'accessibilité.
Comment fonctionne l'API Web Speech
Les navigateurs exposent une interface SpeechSynthesis (qui fait partie de l'API Web Speech, initialement rédigée par le W3C Speech API Community Group), laquelle prend du texte et une voix choisie et produit une parole audible via le moteur de synthèse vocale du système d'exploitation sous-jacent. La surface de l'API est réduite mais puissante : speechSynthesis.speak(utterance) démarre la parole, cancel() / pause() / resume() contrôlent la lecture, et getVoices() liste toutes les voix que l'OS expose. Chaque SpeechSynthesisUtterance porte le texte, l'étiquette de langue, la voix, la vitesse, la hauteur et le volume.
L'audio lui-même est généré par l'OS, pas par le navigateur. macOS et iOS sont livrés avec des dizaines de voix de haute qualité intégrées au système. Windows présente les voix installées via Paramètres → Heure et langue → Voix. Android utilise le moteur Text-to-Speech de Google (ou des alternatives comme Samsung TTS). Linux se rabat sur la configuration speech-dispatcher / espeak fournie par la distribution, souvent au rendu robotique par défaut, sauf si vous avez installé un moteur plus riche.
La distinction de confidentialité cloud / local
Toutes les voix dites « du navigateur » ne s'exécutent pas sur votre appareil. Certains navigateurs envoient le texte à un serveur distant pour produire l'audio des voix de meilleure qualité, puis renvoient le résultat en flux. Cela a une importance pour la confidentialité :
- Safari (macOS / iOS) : la synthèse s'exécute entièrement sur l'appareil. Les voix d'Apple, y compris les voix naturelles de type Siri, sont intégrées à l'OS. Aucun texte ne quitte l'appareil.
- Chrome (ordinateur et Android) : pour certaines voix étiquetées « Google », le texte est envoyé au service TTS de Google pour produire l'audio. Les autres voix de Chrome qui reflètent les voix locales de l'OS restent sur l'appareil. La propriété
SpeechSynthesisVoice.localServicevous indique laquelle est laquelle (true= sur l'appareil,false= cloud). - Microsoft Edge : schéma similaire. Les voix « Online Natural » haute qualité d'Edge acheminent le texte vers le TTS cloud de Microsoft ; les voix standard de l'OS sont locales.
- Firefox : la prise en charge de l'API Web Speech a toujours été limitée ; sur les systèmes où elle fonctionne, elle utilise le moteur de l'OS.
Si votre texte est sensible (brouillons de documents confidentiels, notes internes d'entreprise, tout ce que vous ne voudriez pas voir copié chez un tiers), choisissez une voix marquée comme locale. Si vous ne voyez pas de voix locales dans la liste déroulante, installez des packs de voix de l'OS et elles y apparaîtront.
Cas d'usage courants
- Accessibilité. Les lecteurs d'écran (VoiceOver, NVDA, JAWS, TalkBack) font l'essentiel du travail pour les utilisateurs aveugles et malvoyants, mais un outil de synthèse vocale rapide aide n'importe qui (dyslexie, fatigue oculaire, fatigue) à se faire lire un texte à voix haute de temps en temps.
- Relecture. Entendre votre propre écriture relue permet de repérer les phrases maladroites, les mots manquants et les problèmes de rythme que la lecture silencieuse laisse passer. Une astuce courante des rédacteurs professionnels.
- Prononciation pour l'apprentissage des langues. Entendez les mots prononcés dans la langue cible ; utile lorsque vous lisez un article étranger et que vous ne savez pas comment se prononce un mot.
- Lire des articles à voix haute en faisant des tâches ménagères. Cuisiner, faire le ménage, faire de l'exercice, se déplacer, partout où la lecture n'est pas pratique mais l'écoute l'est.
- Brouillons de voix off. Maquettez rapidement une narration pour tester le rythme avant d'enregistrer avec un véritable comédien de doublage ou de commander un service TTS payant comme ElevenLabs.
- Éducation. Générer du matériel parlé pour le contenu en classe, les exercices de vocabulaire, la pratique de la dictée, l'accessibilité pour des apprenants variés.
Particularités et limites à connaître
- La coupure des longs textes dans Chrome. Un bug Chromium de longue date (679437) fait que
speak()s'arrête après environ 15 secondes, généralement autour de 200-250 caractères. Les solutions de contournement découpent le texte en morceaux de la longueur d'une phrase et appellentspeak()pour chacun. - L'événement
voiceschanged. Le premier appel àspeechSynthesis.getVoices()sur Chrome renvoie un tableau vide. Les voix se remplissent de façon asynchrone ; les pages doivent écouter l'événementvoiceschangedavant d'afficher la liste des voix. - Exigence d'un geste de l'utilisateur. Comme pour la lecture automatique avec son, les navigateurs bloquent la synthèse vocale jusqu'à ce que l'utilisateur clique ou appuie sur quelque chose. Le bouton Lire satisfait ce geste ; une parole déclenchée par programme au chargement de la page ne fonctionnera pas.
- Mode économie d'énergie d'iOS. Lorsque l'iPhone est en mode économie d'énergie, Safari refuse parfois de démarrer la synthèse vocale jusqu'à ce que ce mode soit désactivé.
- Bugs de pause / reprise sur Chrome Android. Mettre en pause puis reprendre vide parfois la file d'attente. Si la fiabilité est importante, redémarrez depuis
speak()plutôt que de compter surpause()/resume(). - Une vitesse / hauteur hors plage échoue silencieusement. Régler la vitesse au-dessus de ~3,0 ou en dessous de 0,1, ou la hauteur au-dessus de 2,0, amène certains moteurs à ne produire aucun son du tout au lieu de plafonner la valeur.
Pourquoi la qualité des voix varie autant
La qualité d'une voix TTS dépend entièrement du moteur sous-jacent, qui dépend de l'OS, qui dépend de ce que vous avez installé. Les voix de l'ère des années 1990 (eSpeak, Microsoft Anna, l'ancienne voix Mac « Fred ») étaient synthétisées à partir d'échantillons de phonèmes concaténés et ont un rendu robotique et emprunté. Les voix modernes (les voix Siri d'Apple, les voix Online Natural de Microsoft, les voix basées sur WaveNet de Google, les voix par abonnement d'ElevenLabs) utilisent l'apprentissage profond pour générer un audio presque indiscernable d'un lecteur humain.
Si les voix de votre liste déroulante ont un rendu robotique, la solution n'est pas cet outil : c'est d'installer de meilleures voix dans votre OS :
- Windows : Paramètres → Heure et langue → Voix → Ajouter des voix. Les voix « Online Natural » de Microsoft sont nettement meilleures que les voix hors ligne par défaut.
- macOS : Réglages Système → Accessibilité → Contenu énoncé → Voix du système → Gérer les voix. Recherchez les voix « Premium » / « Enhanced » ; elles se téléchargent en arrière-plan et améliorent nettement la qualité.
- iOS : Réglages → Accessibilité → Contenu énoncé → Voix. Même convention de nommage que macOS.
- Android : Paramètres → Accessibilité → Sortie de synthèse vocale → Google → Installer les données vocales.
- Linux : installez
festivaloumbrolapour une qualité supérieure à eSpeak, ou utilisez un TTS cloud via API.
Erreurs fréquentes
- S'attendre à ce que Firefox le prenne en charge. La prise en charge de l'API Web Speech par Firefox est à la traîne. Le bouton Lire sera désactivé lorsque vous visitez le site dans Firefox ; utilisez un navigateur basé sur Chromium ou Safari pour une synthèse vocale fiable.
- Coller du texte confidentiel dans une session Chrome en supposant que c'est local. Les voix « Google » par défaut de Chrome envoient le texte au service TTS de Google. Choisissez une voix locale ou utilisez Safari pour le contenu sensible.
- Longs blocs de texte dans Chrome. La coupure à 15 secondes / ~250 caractères piège quiconque colle un paragraphe et s'attend à ce qu'il soit lu jusqu'au bout. Découpez le texte ou utilisez Safari (pas de coupure).
- Régler la vitesse ou la hauteur trop loin hors plage. Le moteur ne plafonne pas ; il ne produit silencieusement aucun son. Restez dans une vitesse de 0,5-2,5 et une hauteur de 0,5-1,5 pour des résultats prévisibles.
- Considérer la synthèse vocale du navigateur comme une voix off de qualité production. Même les meilleures voix de navigateur sont assez bonnes pour la relecture, l'accessibilité et les brouillons, mais pas pour des podcasts publiés ou une voix off commerciale. Pour cela, tournez-vous vers ElevenLabs, Murf ou des services payants similaires.
- Oublier que les voix se téléchargent de façon asynchrone. La première visite de la page sur Chrome peut n'afficher aucune voix ; actualisez après un instant et elles apparaîtront.
Autres questions fréquentes
Comment savoir si une voix est locale ou basée sur le cloud ?
Par programme, la propriété SpeechSynthesisVoice.localService vaut true pour les voix sur l'appareil et false pour celles basées sur le cloud. En pratique, les conventions de nommage des voix aident : les voix de Chrome étiquetées « Google » sont généralement basées sur le cloud ; les voix qui correspondent aux voix installées de votre OS (Microsoft David, Apple Samantha, Google Wavenet en-US-Wavenet-D) sont locales si l'OS les possède. Les voix de Safari sont toujours locales.
Puis-je enregistrer l'audio sous forme de fichier MP3 ?
Pas directement avec l'API Web Speech du navigateur : la spécification n'expose pas le flux audio pour la capture. Si vous avez besoin d'un MP3 / WAV téléchargeable, les options incluent : une application de voix off dédiée comme Audacity qui enregistre l'audio de votre système, une API TTS payante (Google Cloud TTS, Amazon Polly, ElevenLabs) qui renvoie le fichier audio, ou une application d'enregistrement d'écran qui capture la lecture.
Pourquoi l'audio est-il haché ou s'arrête-t-il au milieu d'une phrase ?
La cause la plus fréquente sur Chrome est le bug des longs textes : la parole s'arrête à ~15 secondes. Actualisez et réessayez avec un passage plus court, ou passez à Safari qui n'a pas cette limite. Autres causes : un dysfonctionnement système dans le moteur vocal de l'OS (un redémarrage le corrige généralement), ou une voix cloud qui échoue à se charger hors ligne (passez à une voix locale).
Cela fonctionne-t-il dans toutes les langues ?
Toute langue pour laquelle votre système d'exploitation a une voix installée. macOS et iOS sont livrés avec des dizaines de langues intégrées. Windows nécessite d'installer des packs vocaux par langue (Paramètres → Heure et langue → Voix → Ajouter des voix). Android a besoin de Google TTS ou d'un moteur tiers pour que les données de langue soient téléchargées. La liste déroulante des voix répertorie tout ce qui est disponible ; l'étiquette de langue (en-US, fr-FR, ja-JP, etc.) vous indique quelle langue chaque voix produit.
Est-ce utile pour le podcasting ?
Pour les brouillons et les tests de rythme, oui. Pour les épisodes publiés, le niveau d'exigence est plus élevé : même les meilleures voix de navigateur ont de subtils artefacts que les auditeurs repèrent rapidement. Les services payants comme ElevenLabs et Murf proposent des modèles de voix entraînés pour la narration longue et produisent des résultats nettement meilleurs, souvent pour quelques centimes par millier de caractères.
Puis-je utiliser ceci pour des utilisateurs aveugles / malvoyants sur mon propre site ?
Un site n'a généralement pas besoin d'intégrer la synthèse vocale pour l'accessibilité : les technologies d'assistance comme les lecteurs d'écran (VoiceOver sur les appareils Apple, NVDA / JAWS sur Windows, TalkBack sur Android) s'en chargent universellement. La synthèse vocale intégrée est plus utile pour une commodité de lecture à voix haute occasionnelle, pour les utilisateurs voyants en proie à la fatigue de lecture ou les apprenants. Pour l'accessibilité, concentrez-vous sur le HTML sémantique, les étiquettes ARIA, la navigation au clavier et le contraste : tout cela aide chaque lecteur d'écran à mieux fonctionner, y compris celui de l'utilisateur.
Outils associés
Reconnaissance vocale
Dictez du texte avec votre micro, propulsé par l'API Web Speech.
Compteur de mots & caractères
Comptez mots, caractères, phrases, paragraphes et temps de lecture.
Convertisseur de casse
Convertissez un texte en MAJUSCULES, minuscules, Casse de Titre, camelCase et plus.
Texte en écriture manuscrite
Rendez du texte tapé sous forme manuscrite.