Synthèse vocale (texte → voix), gratuite

Voix neuronale (Kokoro) et voix du navigateur · tout tourne localement dans votre navigateur.

0 caractère

À propos de cet outil

La voix neuronale (Kokoro IA) utilise un modèle de synthèse vocale de pointe à 82 millions de paramètres. Il s'exécute 100 % dans votre navigateur via WebAssembly et ONNX Runtime · aucun texte n'est envoyé à un serveur. Au premier usage, le modèle (~100 Mo) est téléchargé et mis en cache par votre navigateur. Ensuite, il se charge instantanément. Vous disposez de 13 voix aux accents américain et britannique, masculines et féminines, chacune avec une intonation et une prosodie naturelles. L'audio généré peut être lu puis téléchargé au format WAV.

Les voix du navigateur utilisent l'API Web Speech intégrée à votre système. Elles sont instantanées et sans téléchargement, mais la qualité et la disponibilité des voix dépendent de votre OS et de votre navigateur. Chrome propose généralement le plus grand choix. Idéal pour des aperçus rapides et les tests d'accessibilité.

Comment fonctionne l'API Web Speech

Les navigateurs exposent une interface SpeechSynthesis (qui fait partie de l'API Web Speech, initialement rédigée par le W3C Speech API Community Group), laquelle prend du texte et une voix choisie et produit une parole audible via le moteur de synthèse vocale du système d'exploitation sous-jacent. La surface de l'API est réduite mais puissante : speechSynthesis.speak(utterance) démarre la parole, cancel() / pause() / resume() contrôlent la lecture, et getVoices() liste toutes les voix que l'OS expose. Chaque SpeechSynthesisUtterance porte le texte, l'étiquette de langue, la voix, la vitesse, la hauteur et le volume.

L'audio lui-même est généré par l'OS, pas par le navigateur. macOS et iOS sont livrés avec des dizaines de voix de haute qualité intégrées au système. Windows présente les voix installées via Paramètres → Heure et langue → Voix. Android utilise le moteur Text-to-Speech de Google (ou des alternatives comme Samsung TTS). Linux se rabat sur la configuration speech-dispatcher / espeak fournie par la distribution, souvent au rendu robotique par défaut, sauf si vous avez installé un moteur plus riche.

La distinction de confidentialité cloud / local

Toutes les voix dites « du navigateur » ne s'exécutent pas sur votre appareil. Certains navigateurs envoient le texte à un serveur distant pour produire l'audio des voix de meilleure qualité, puis renvoient le résultat en flux. Cela a une importance pour la confidentialité :

Si votre texte est sensible (brouillons de documents confidentiels, notes internes d'entreprise, tout ce que vous ne voudriez pas voir copié chez un tiers), choisissez une voix marquée comme locale. Si vous ne voyez pas de voix locales dans la liste déroulante, installez des packs de voix de l'OS et elles y apparaîtront.

Cas d'usage courants

Particularités et limites à connaître

Pourquoi la qualité des voix varie autant

La qualité d'une voix TTS dépend entièrement du moteur sous-jacent, qui dépend de l'OS, qui dépend de ce que vous avez installé. Les voix de l'ère des années 1990 (eSpeak, Microsoft Anna, l'ancienne voix Mac « Fred ») étaient synthétisées à partir d'échantillons de phonèmes concaténés et ont un rendu robotique et emprunté. Les voix modernes (les voix Siri d'Apple, les voix Online Natural de Microsoft, les voix basées sur WaveNet de Google, les voix par abonnement d'ElevenLabs) utilisent l'apprentissage profond pour générer un audio presque indiscernable d'un lecteur humain.

Si les voix de votre liste déroulante ont un rendu robotique, la solution n'est pas cet outil : c'est d'installer de meilleures voix dans votre OS :

Erreurs fréquentes

  1. S'attendre à ce que Firefox le prenne en charge. La prise en charge de l'API Web Speech par Firefox est à la traîne. Le bouton Lire sera désactivé lorsque vous visitez le site dans Firefox ; utilisez un navigateur basé sur Chromium ou Safari pour une synthèse vocale fiable.
  2. Coller du texte confidentiel dans une session Chrome en supposant que c'est local. Les voix « Google » par défaut de Chrome envoient le texte au service TTS de Google. Choisissez une voix locale ou utilisez Safari pour le contenu sensible.
  3. Longs blocs de texte dans Chrome. La coupure à 15 secondes / ~250 caractères piège quiconque colle un paragraphe et s'attend à ce qu'il soit lu jusqu'au bout. Découpez le texte ou utilisez Safari (pas de coupure).
  4. Régler la vitesse ou la hauteur trop loin hors plage. Le moteur ne plafonne pas ; il ne produit silencieusement aucun son. Restez dans une vitesse de 0,5-2,5 et une hauteur de 0,5-1,5 pour des résultats prévisibles.
  5. Considérer la synthèse vocale du navigateur comme une voix off de qualité production. Même les meilleures voix de navigateur sont assez bonnes pour la relecture, l'accessibilité et les brouillons, mais pas pour des podcasts publiés ou une voix off commerciale. Pour cela, tournez-vous vers ElevenLabs, Murf ou des services payants similaires.
  6. Oublier que les voix se téléchargent de façon asynchrone. La première visite de la page sur Chrome peut n'afficher aucune voix ; actualisez après un instant et elles apparaîtront.

Autres questions fréquentes

Comment savoir si une voix est locale ou basée sur le cloud ?

Par programme, la propriété SpeechSynthesisVoice.localService vaut true pour les voix sur l'appareil et false pour celles basées sur le cloud. En pratique, les conventions de nommage des voix aident : les voix de Chrome étiquetées « Google » sont généralement basées sur le cloud ; les voix qui correspondent aux voix installées de votre OS (Microsoft David, Apple Samantha, Google Wavenet en-US-Wavenet-D) sont locales si l'OS les possède. Les voix de Safari sont toujours locales.

Puis-je enregistrer l'audio sous forme de fichier MP3 ?

Pas directement avec l'API Web Speech du navigateur : la spécification n'expose pas le flux audio pour la capture. Si vous avez besoin d'un MP3 / WAV téléchargeable, les options incluent : une application de voix off dédiée comme Audacity qui enregistre l'audio de votre système, une API TTS payante (Google Cloud TTS, Amazon Polly, ElevenLabs) qui renvoie le fichier audio, ou une application d'enregistrement d'écran qui capture la lecture.

Pourquoi l'audio est-il haché ou s'arrête-t-il au milieu d'une phrase ?

La cause la plus fréquente sur Chrome est le bug des longs textes : la parole s'arrête à ~15 secondes. Actualisez et réessayez avec un passage plus court, ou passez à Safari qui n'a pas cette limite. Autres causes : un dysfonctionnement système dans le moteur vocal de l'OS (un redémarrage le corrige généralement), ou une voix cloud qui échoue à se charger hors ligne (passez à une voix locale).

Cela fonctionne-t-il dans toutes les langues ?

Toute langue pour laquelle votre système d'exploitation a une voix installée. macOS et iOS sont livrés avec des dizaines de langues intégrées. Windows nécessite d'installer des packs vocaux par langue (Paramètres → Heure et langue → Voix → Ajouter des voix). Android a besoin de Google TTS ou d'un moteur tiers pour que les données de langue soient téléchargées. La liste déroulante des voix répertorie tout ce qui est disponible ; l'étiquette de langue (en-US, fr-FR, ja-JP, etc.) vous indique quelle langue chaque voix produit.

Est-ce utile pour le podcasting ?

Pour les brouillons et les tests de rythme, oui. Pour les épisodes publiés, le niveau d'exigence est plus élevé : même les meilleures voix de navigateur ont de subtils artefacts que les auditeurs repèrent rapidement. Les services payants comme ElevenLabs et Murf proposent des modèles de voix entraînés pour la narration longue et produisent des résultats nettement meilleurs, souvent pour quelques centimes par millier de caractères.

Puis-je utiliser ceci pour des utilisateurs aveugles / malvoyants sur mon propre site ?

Un site n'a généralement pas besoin d'intégrer la synthèse vocale pour l'accessibilité : les technologies d'assistance comme les lecteurs d'écran (VoiceOver sur les appareils Apple, NVDA / JAWS sur Windows, TalkBack sur Android) s'en chargent universellement. La synthèse vocale intégrée est plus utile pour une commodité de lecture à voix haute occasionnelle, pour les utilisateurs voyants en proie à la fatigue de lecture ou les apprenants. Pour l'accessibilité, concentrez-vous sur le HTML sémantique, les étiquettes ARIA, la navigation au clavier et le contraste : tout cela aide chaque lecteur d'écran à mieux fonctionner, y compris celui de l'utilisateur.

Outils associés