पाठ से वाणी

न्यूरल आवाज़ (Kokoro) और ब्राउज़र आवाज़ें · सब आपके ब्राउज़र में स्थानीय रूप से चलती हैं।

0 वर्ण

इस टूल के बारे में

न्यूरल वॉइस (Kokoro AI) 82 मिलियन पैरामीटर के अत्याधुनिक टेक्स्ट-टू-स्पीच मॉडल का उपयोग करता है। यह 100% आपके ब्राउज़र में चलता है।

ब्राउज़र वॉइस आपके सिस्टम की अंतर्निहित Web Speech API का उपयोग करती हैं। वे तुरंत हैं और बिना डाउनलोड के।

Web Speech API कैसे काम करती है

Browsers एक SpeechSynthesis interface expose करते हैं (Web Speech API का हिस्सा, originally W3C Speech API Community Group द्वारा drafted) जो text और chosen voice लेता है और underlying operating system के TTS engine के माध्यम से audible speech produce करता है। Full API surface small लेकिन powerful है: speechSynthesis.speak(utterance) speech start करता है, cancel() / pause() / resume() playback control करते हैं, और getVoices() OS द्वारा expose किए गए हर voice list करता है। हर SpeechSynthesisUtterance text, language tag, voice, rate, pitch, और volume carry करता है।

Audio खुद OS द्वारा generate होता है, browser द्वारा नहीं। macOS और iOS dozens of high-quality voices system में built-in ship करते हैं। Windows Settings → Time & Language → Speech के माध्यम से installed voices surface करता है। Android Google का Text-to-Speech engine use करता है (या Samsung TTS जैसे alternatives)। Linux distro जो speech-dispatcher / espeak setup provide करती है उस पर fall through करता है, often by default robotic-sounding जब तक रicher engine install नहीं किया हो।

Cloud-vs-Local Privacy Distinction

हर «browser» voice आपके device पर नहीं run होती। कुछ browsers text को higher-quality voices के लिए audio render करने के लिए remote server पर send करते हैं, फिर result stream back करते हैं। Privacy के लिए यह matter करता है:

यदि आपका text sensitive है (confidential documents के drafts, internal company memos, कुछ भी जो आप third party को copy नहीं करवाना चाहते) तो local marked voice choose करें। यदि dropdown में local voices नहीं दिखतीं, तो OS voice packs install करें और वे वहां appear होंगी।

सामान्य उपयोग के मामले

जानने योग्य Quirks और Limitations

Voice Quality इतनी अलग-अलग क्यों होती है

TTS voice की quality पूरी तरह underlying engine पर depend करती है, जो OS पर depend करती है, जो आपने install किया है उस पर। 1990s-era voices (eSpeak, Microsoft Anna, old Mac «Fred») concatenated phoneme samples से synthesised थीं और robotic और stilted sound करती हैं। Modern voices (Apple की Siri voices, Microsoft की Online Natural voices, Google की WaveNet-based voices, ElevenLabs की subscription voices) deep learning use करती हैं audio generate करने के लिए जो human reader से nearly indistinguishable है।

यदि आपके dropdown की voices robotic sound करती हैं, तो fix इस tool में नहीं है, बल्कि अपने OS में better voices install करना है:

सामान्य गलतियाँ

  1. Firefox support की उम्मीद करना। Firefox का Web Speech API support lag रहा है। Firefox में visit करने पर Speak button disabled होगा; reliable TTS के लिए Chromium-based browser या Safari use करें।
  2. Chrome session में confidential text paste करना और assume करना कि यह local है। Default Chrome «Google» voices text को Google के TTS service पर send करती हैं। Sensitive content के लिए local voice choose करें या Safari use करें।
  3. Chrome में text के long blocks। 15-second / ~250-character cut-off किसी को भी catch करता है जो paragraph paste करके expect करता है कि यह पूरा read होगा। या तो text split करें या Safari use करें (कोई cut-off नहीं)।
  4. Rate या pitch को range से बहुत बाहर set करना। Engine clamp नहीं करता; यह silently कोई audio produce नहीं करता। Predictable results के लिए rate 0.5-2.5 और pitch 0.5-1.5 के within रहें।
  5. Browser TTS को production-quality voiceover treat करना। Best browser voices भी proofreading, accessibility, और rough drafts के लिए sufficient हैं, published podcasts या commercial voiceover के लिए नहीं। उसके लिए, ElevenLabs, Murf, या similar paid services देखें।
  6. यह भूलना कि voices asynchronously download होती हैं। Chrome पर first page visit कोई voices नहीं दिखा सकती; थोड़े समय बाद refresh करें और वे appear होंगी।

अधिक Frequently Asked Questions

मैं कैसे बताऊं कि voice local है या cloud-based?

Programmatically, SpeechSynthesisVoice.localService property on-device voices के लिए true और cloud-based के लिए false है। Practice में, voice naming conventions help करती हैं: Chrome की «Google» labelled voices usually cloud-based हैं; OS के installed voices से match करने वाली voices (Microsoft David, Apple Samantha, Google Wavenet en-US-Wavenet-D) local हैं यदि OS के पास हों। Safari की voices हमेशा local हैं।

क्या मैं audio को MP3 file के रूप में save कर सकता हूं?

Browser के Web Speech API के साथ directly नहीं, spec capture के लिए audio stream expose नहीं करता। यदि आपको downloadable MP3 / WAV चाहिए, तो options हैं: system audio record करने वाला dedicated voiceover app जैसे Audacity, paid TTS API (Google Cloud TTS, Amazon Polly, ElevenLabs) जो audio file return करता है, या playback capture करने वाला screen-recording app।

Audio choppy क्यों है या mid-sentence stop क्यों हो रहा है?

Chrome पर most common cause long-text bug है, speech ~15 seconds पर stop होती है। Refresh करें और shorter passage के साथ try करें, या Safari पर switch करें जिसमें यह limit नहीं है। अन्य causes: OS speech engine में system glitch (restart usually fix करता है), या offline होने पर cloud voice fetch fail करना (local voice पर switch करें)।

क्या यह किसी भी Language में काम करता है?

किसी भी language में जिसके लिए आपका operating system voice install करता है। macOS और iOS dozens of languages built-in ship करते हैं। Windows को language per speech packs install करने की ज़रूरत है (Settings → Time & Language → Speech → Add voices)। Android को language data download करने के लिए Google TTS या third-party engine चाहिए। Voice dropdown उपलब्ध सब कुछ list करता है; language tag (en-US, fr-FR, ja-JP आदि) बताता है कि हर voice कौन सी language produce करती है।

क्या यह Podcasting के लिए Useful है?

Drafts और pacing tests के लिए, हां। Published episodes के लिए, quality bar higher है, best browser voices में भी subtle artefacts होते हैं जो listeners quickly pick up करते हैं। ElevenLabs और Murf जैसी paid services long-form narration के लिए trained voice models offer करती हैं और noticeably better results produce करती हैं, often कुछ cents per thousand characters पर।

क्या मैं अपनी Site पर Blind / Low-Vision Users के लिए इसे Use कर सकता हूं?

Site को accessibility के लिए usually TTS embed करने की ज़रूरत नहीं होती, assistive technologies जैसे screen readers (Apple devices पर VoiceOver, Windows पर NVDA / JAWS, Android पर TalkBack) universally handle करते हैं। Embedded TTS sighted users के लिए occasional read-aloud convenience के लिए अधिक useful है जिनमें reading fatigue है या learners के लिए। Accessibility के लिए, semantic HTML, ARIA labels, keyboard navigation, और contrast पर focus करें, ये हर screen reader को better work करने में help करते हैं, user के own screen reader सहित।

संबंधित टूल