मुफ्त ऑनलाइन वाणी से पाठ

अपनी आवाज़ को तुरंत पाठ में बदलें। कोई अपलोड, कोई साइन-अप, कोई खाता नहीं-बस बोलें और लिखवाएँ।

🔒 आपके ब्राउज़र की अंतर्निहित वाक् पहचान का उपयोग करता है
शब्द गिनती: 0
नोट: इस टूल को वाणी पहचान समर्थन वाले एक आधुनिक ब्राउज़र (Chrome, Edge, Safari, Opera) की आवश्यकता है। माइक्रोफ़ोन की पहुँच आवश्यक है और इसका उपयोग केवल आपके रिकॉर्डिंग सत्र के दौरान होगा।

यह कैसे काम करता है

  1. माइक्रोफ़ोन पहुँच की अनुमति दें: पूछे जाने पर ब्राउज़र को माइक्रोफ़ोन की अनुमति दें, ऑडियो स्थानीय रहता है और कभी भी सर्वर पर नहीं भेजा जाता।
  2. डिक्टेशन शुरू करें: शुरू पर क्लिक करें और स्पष्ट रूप से बोलें। जैसे ही Web Speech API उन्हें पहचानता है, आपके शब्द वास्तविक समय में दिखाई देते हैं।
  3. ट्रांसक्रिप्ट संपादित करें: पहचाना गया पाठ पूरी तरह संपादन योग्य है, किसी भी त्रुटि को सीधे लिखने के क्षेत्र में ठीक करें।
  4. कॉपी करें या डाउनलोड करें: ट्रांसक्रिप्ट को अपने क्लिपबोर्ड पर कॉपी करें या .txt फ़ाइल के रूप में डाउनलोड करें।

वाणी से पाठ का उपयोग क्यों करें?

वाइस डिक्टेशन ज़्यादातर लोगों के लिए टाइपिंग से 3 to 4 गुना तेज़ है और लंबे समय तक की-बोर्ड के उपयोग से होने वाले दोहराव तनाव को कम करता है। Web Speech API का उपयोग करके ब्राउज़र-आधारित वाणी पहचान अब Chromium-आधारित ब्राउज़रों और Safari में उपलब्ध है, जो बिना किसी बैकएंड सेवा के कई भाषाओं के लिए उच्च सटीकता प्रदान करती है। इसका उपयोग ईमेल, नोट्स, ब्लॉग पोस्ट और फ़ॉर्म इंट्री को डिक्टेट करने के लिए करें, या उस ऑडियो की कच्ची ट्रांसक्रिप्ट बनाने के लिए जिसे आप सुन रहे हैं। सुलभता के लिए, मोटर विकलांगता वाले उपयोगकर्ताओं या जिन्हें टाइप करना मुश्किल लगता है, उनके लिए वाणी इनपुट आवश्यक है।

विशेषताएँ

ब्राउज़र वाक्-से-पाठ वास्तव में क्या करता है

वाक् पहचान (Automatic Speech Recognition, ASR भी कहलाती है) बोले गए ऑडियो को लिखित पाठ में परिवर्तित करती है। आधुनिक ASR सिस्टम एक ध्वनिक मॉडल (ध्वनियाँ ध्वनियमों से कैसे मेल खाती हैं), एक भाषा मॉडल (वास्तविक भाषा में शब्द और वाक्यांश कैसे एक साथ जाते हैं) और एक डिकोडर को संयोजित करते हैं जो ऑडियो दिए जाने पर सबसे अधिक संभावित शब्द अनुक्रम पाता है। 2010 के दशक की क्रांति गहन शिक्षा थी: न्यूरल नेटवर्क ने ध्वनिक और भाषा दोनों मॉडलिंग के लिए पहले के Hidden Markov Models को बदल दिया, स्वच्छ भाषण पर लगभग 80% सटीकता से सहयोगी एकल-वक्ता ऑडियो पर 95%+ तक उठाया। 2022 तक, OpenAI के Whisper ने प्रदर्शित किया कि एक एकल बहुभाषी मॉडल 99 भाषाओं में विशेष सिस्टम को मिला सकता है या उनसे आगे निकल सकता है।

यह टूल ब्राउज़र की Web Speech API का उपयोग करता है, Chrome 25 (2013) में पेश किया गया और Edge, Safari और अधिकांश Chromium ब्राउज़रों में धीरे-धीरे जोड़ा गया ब्राउज़र-में ASR के लिए W3C मानक। API एक SpeechRecognition ऑब्जेक्ट उजागर करती है जो माइक्रोफ़ोन ऑडियो को ब्राउज़र द्वारा कार्यान्वित किसी भी वाक् सेवा को स्ट्रीम करती है: Chrome और Edge ऑडियो को क्रमशः Google और Microsoft की क्लाउड वाक् सेवाओं पर रूट करते हैं, जबकि iOS 17+ और macOS Sonoma+ पर Safari पहचान को डिवाइस पर चलाता है। Firefox बिल्कुल भी Web Speech API लागू नहीं करता। यह गोपनीयता अंतर मायने रखता है: टूल स्वयं आपके ब्राउज़र में चलता है और आपका ऑडियो कभी नहीं देखता, लेकिन Chrome और Edge प्रसंस्करण के लिए ऑडियो को Google/Microsoft सर्वर पर प्रसारित करते हैं।

अधिकांश उपयोगकर्ताओं के लिए, टाइप करने बनाम ट्रेड-ऑफ नाटकीय है। कार्यालय कर्मियों के लिए औसत टाइपिंग गति प्रति मिनट 40 से 60 शब्द है; औसत भाषण प्रति मिनट 130 से 150 शब्द है। प्रारंभिक पाठ प्राप्त करने के लिए वॉयस डिक्टेशन 2x से 3x तेज़ है, चेतावनी के साथ कि बाद में संपादन आमतौर पर अभी भी टाइप करना है। वॉयस इनपुट पहुँच के लिए भी मायने रखता है: मोटर विकलांगता, बार-बार तनाव या अस्थायी चोटों वाले उपयोगकर्ता जब टाइप करना अव्यवहारिक होता है, तो आवाज से पाठ उत्पन्न कर सकते हैं। भाषा सीखने वालों के लिए, यह सुनना कि क्या सिस्टम ने आपके भाषण को सही ढंग से पहचाना, उच्चारण पर प्रतिक्रिया प्रदान करता है। बैठक कैप्चर के लिए, वास्तविक समय में प्रतिलेख प्रतिभागियों और अनुपस्थित सहयोगियों दोनों की मदद करते हैं।

यह टूल पर्दे के पीछे कैसे काम करता है

जब आप 'रिकॉर्डिंग शुरू करें' पर क्लिक करते हैं, पेज एक SpeechRecognition ऑब्जेक्ट (या पुराने Chrome में webkitSpeechRecognition) बनाता है और start() कॉल करता है। यदि पहले प्रदान नहीं की गई है तो ब्राउज़र माइक्रोफ़ोन अनुमति का अनुरोध करता है, फिर सिस्टम वाक् सेवा पर कैप्चर किए गए ऑडियो की स्ट्रीमिंग शुरू करता है। आपके द्वारा चुना गया भाषा टैग (जैसे en-US, fr-FR, zh-CN) सेवा को पास किया जाता है ताकि यह उपयुक्त ध्वनिक और भाषा मॉडल लोड करे।

ब्राउज़र पेज को दो प्रकार के परिणाम देता है: अंतरिम परिणाम (आंशिक सर्वश्रेष्ठ अनुमान, नया ऑडियो आते ही प्रति सेकंड 5 से 20 बार अपडेट होते हैं) और अंतिम परिणाम (एक पूर्ण उच्चारण का लॉक-इन प्रतिलेखन, आमतौर पर तब जारी होता है जब वक्ता एक पल के लिए रुकता है)। टूल का textarea हल्की शैली में अंतरिम परिणाम दिखाता है और अंतिम परिणाम आते ही उन्हें लॉक करता है। शब्द काउंटर केवल अंतिम परिणामों से अपडेट होता है, इसलिए अंतरिम अनुमान बदलते समय यह झिलमिलाता नहीं है। निरंतर मोड (एक चेकबॉक्स विकल्प) यदि ब्राउज़र लंबे मौन के बाद इसे समाप्त करता है तो स्वचालित रूप से पहचान सत्र पुनरारंभ करता है, जो Chrome पर सामान्य है लेकिन Safari पर दुर्लभ है।

एक बार जब आप रुक जाते हैं, प्रतिलेख textarea में रहता है, पूरी तरह संपादन योग्य। कॉपी और डाउनलोड बटन textarea में टेक्स्ट पर काम करते हैं; दोनों स्थानीय रूप से होते हैं, बिना सर्वर के शामिल। टूल स्वयं कभी भी आपके ऑडियो या प्रतिलेख को कहीं भी प्रसारित नहीं करता; एकमात्र नेटवर्क गतिविधि वह है जो ब्राउज़र आंतरिक रूप से Google या Microsoft की वाक् सेवा के साथ संचार करने के लिए करता है (या कोई नहीं, Safari पर)। आपका प्रतिलेख कभी संग्रहीत नहीं होता: पेज ताज़ा करें और यह चला गया जब तक आपने इसे पहले कॉपी या डाउनलोड नहीं किया।

वाक् पहचान का संक्षिप्त इतिहास

वास्तविक दुनिया के कार्यप्रवाह

सामान्य नुकसान और उनका क्या मतलब है

गोपनीयता: ऑडियो हैंडलिंग ब्राउज़र के अनुसार भिन्न होती है

इस साइट पर अधिकांश टूल के विपरीत जो पूरी तरह से क्लाइंट-साइड चलते हैं, Web Speech API के गोपनीयता गुण इस पर निर्भर करते हैं कि आप कौन सा ब्राउज़र उपयोग करते हैं। Chrome और Edge आपके माइक्रोफ़ोन ऑडियो को Google और Microsoft की क्लाउड वाक् पहचान सेवाओं को प्रसारित करते हैं। दोनों कंपनियाँ कहती हैं कि वे वाक् पहचान प्रश्नों के लिए ऑडियो को लंबे समय तक संग्रहीत नहीं करतीं (उपयोगकर्ता-प्रशिक्षित वॉयस प्रोफाइल के विपरीत), लेकिन ऑडियो आपका डिवाइस छोड़ता है, उनके नेटवर्क से गुजरता है और उनके सर्वर पर संसाधित किया जाता है। iOS 17+ और macOS Sonoma+ पर Safari Apple के डिवाइस-पर ASR का उपयोग करके पूरी तरह से डिवाइस पर वाक् पहचान चलाता है, इसलिए आपका ऑडियो आपके Mac या iPhone को कभी नहीं छोड़ता। पुराने Safari संस्करण और अन्य Apple ब्राउज़र भिन्न हो सकते हैं।

Absolutool स्वयं कुछ भी प्राप्त नहीं करता। पेज ब्राउज़र की वाक् API को कॉल करता है, ब्राउज़र ऑडियो को संभालता है (या तो डिवाइस पर या इसके विक्रेता की क्लाउड सेवा के माध्यम से), और केवल परिणामी प्रतिलेख टेक्स्ट पेज में वापस आता है। टूल फिर टेक्स्ट दिखाता है और आपको इसे कॉपी या डाउनलोड करने देता है; पेज स्वयं द्वारा कोई सर्वर कॉल नहीं किया जाता। गोपनीय सामग्री से निपटने वाले उपयोगकर्ताओं के लिए, अनुशंसित दृष्टिकोण है: (1) डिवाइस पर प्रसंस्करण के लिए हाल के Apple डिवाइस पर Safari का उपयोग करें, या (2) स्थानीय रूप से चल रहे Whisper जैसा समर्पित ऑफ़लाइन टूल का उपयोग करें, या (3) स्वीकार करें कि Chrome और Edge Google/Microsoft के माध्यम से ऑडियो को रूट करते हैं और केवल गैर-संवेदनशील सामग्री के लिए उनका उपयोग करें।

जब कोई दूसरा उपकरण सही विकल्प हो

अधिक अक्सर पूछे जाने वाले प्रश्न

एक मिनट के बाद पहचान क्यों रुक जाती है?

Chrome और Edge में अंतर्निहित टाइमआउट हैं जो लगभग 30 से 60 सेकंड के बाद Web Speech पहचान सत्रों को समाप्त करते हैं, जिसका उद्देश्य बैंडविड्थ बचाना और आकस्मिक अनिश्चित रिकॉर्डिंग को रोकना है। जब ऐसा हो तो स्वचालित रूप से पहचान पुनरारंभ करने के लिए टूल में निरंतर मोड सक्षम करें। निरंतर मोड सत्रों के बीच संक्षिप्त विराम प्रस्तुत करता है (आमतौर पर एक सेकंड से कम), जो जोड़ों पर कभी-कभी छूटे हुए शब्दों के परिणामस्वरूप हो सकता है। Safari लंबे सत्रों को टाइमआउट के बिना अधिक शालीनता से संभालता है।

मेरी अपेक्षा से सटीकता कम क्यों है?

तीन कारक: (1) आपका उच्चारण प्रशिक्षण डेटा से भिन्न हो सकता है; एक करीबी भाषा संस्करण आज़माने पर विचार करें (जैसे, en-IN भारतीय अंग्रेज़ी के लिए, en-AU ऑस्ट्रेलियाई के लिए)। (2) पृष्ठभूमि शोर, माइक्रोफ़ोन दूरी और ऑडियो गुणवत्ता मायने रखती है; शांत कमरा और निकट माइक्रोफ़ोन 95%+ सटीकता उत्पन्न करते हैं, जबकि शोर वातावरण और दूर माइक्रोफ़ोन 70% या कम तक गिर जाता है। (3) विशेष शब्दावली (तकनीकी शब्द, उचित संज्ञाएँ, ब्रांड नाम) सामान्य भाषण से अधिक कठिन है; उच्च-सटीकता पेशेवर डिक्टेशन के लिए, Dragon का वक्ता प्रशिक्षण और कस्टम शब्दावली लागत के लायक है।

क्या मैं आवाज से विराम चिह्न डिक्टेट कर सकता हूँ?

इस टूल में नहीं। Web Speech API विराम चिह्न के लिए वॉयस कमांड की व्याख्या नहीं करती; 'पूर्ण विराम' कहना 'पूर्ण विराम' शब्द सम्मिलित करता है, '.' चिह्न नहीं। कुछ समर्पित डिक्टेशन टूल (Dragon, Apple Dictation, Windows Voice Access) बोले गए विराम चिह्न कमांड को पहचानते हैं। ब्राउज़र-आधारित डिक्टेशन के लिए, विशिष्ट कार्यप्रवाह है: शब्दों को डिक्टेट करें, फिर कीबोर्ड के साथ संपादन पास में विराम चिह्न जोड़ें। आधुनिक लॉन्ग-फ़ॉर्म मॉडल (Whisper) अक्सर भाषण पैटर्न के आधार पर स्वचालित रूप से विराम चिह्न जोड़ते हैं।

क्या यह iPhone पर काम करता है?

हाँ, Safari के माध्यम से iOS 14.5 और बाद में। iOS 17 ने Safari के Web Speech API कार्यान्वयन के माध्यम से डिवाइस-पर वाक् पहचान लाई, इसलिए आपका ऑडियो आपके iPhone को कभी नहीं छोड़ता। iPhone या iPad पर निरंतर डिक्टेशन के लिए, आप सिस्टम-वाइड iOS डिक्टेशन का भी उपयोग कर सकते हैं (कीबोर्ड पर माइक्रोफ़ोन आइकन पर टैप करें), जो OS में किसी भी टेक्स्ट फ़ील्ड में काम करता है।

Firefox इसका समर्थन क्यों नहीं करता?

Mozilla ने Firefox में Web Speech API लागू नहीं की है, मुख्य रूप से Chrome और Edge द्वारा उपयोग किए जाने वाले क्लाउड-रूटिंग मॉडल के साथ गोपनीयता चिंताओं और गोपनीयता-संरक्षण विकल्प को लागू करने की इंजीनियरिंग जटिलता के कारण। Mozilla के बग ट्रैकर पर Firefox उपयोगकर्ता वर्षों से वाक् समर्थन का अनुरोध कर रहे हैं; Mozilla की आधिकारिक स्थिति यह है कि सार्थक स्थानीय वाक् पहचान के लिए महत्वपूर्ण संसाधनों की आवश्यकता होती है और उन्होंने इसे प्राथमिकता नहीं दी है। अभी के लिए, वॉयस इनपुट चाहने वाले Firefox उपयोगकर्ताओं को Chrome, Edge, Safari या OS-स्तर डिक्टेशन जैसे सिस्टम-वाइड समाधान का उपयोग करना चाहिए।

क्या मैं पहले से रिकॉर्ड की गई ऑडियो फ़ाइल का प्रतिलेखन कर सकता हूँ?

सीधे नहीं। Web Speech API केवल लाइव माइक्रोफ़ोन इनपुट स्वीकार करती है, फ़ाइल अपलोड नहीं। रिकॉर्ड की गई फ़ाइल को प्रतिलेखित करने के लिए, समाधान यह है कि अपने कंप्यूटर के स्पीकर के माध्यम से ऑडियो फ़ाइल चलाएँ (या Soundflower या BlackHole जैसे ऑडियो रूटिंग सॉफ़्टवेयर का उपयोग करें) जबकि यह उपकरण माइक्रोफ़ोन के माध्यम से सुनता है। ध्वनिक विकृति के कारण यह कुछ सटीकता खो देता है। रिकॉर्ड किए गए ऑडियो के उच्च-गुणवत्ता प्रतिलेखन के लिए, एक समर्पित उपकरण का उपयोग करें: Whisper (ऑफ़लाइन, मुफ्त), Otter.ai, या Rev जैसी प्रतिलेखन सेवा। कभी-कभार अनौपचारिक प्रतिलेखन के लिए, माइक्रोफ़ोन के माध्यम से प्लेबैक तरकीब काम करती है।

संबंधित टूल्स