मुफ्त ऑनलाइन वाणी से पाठ
अपनी आवाज़ को तुरंत पाठ में बदलें। कोई अपलोड, कोई साइन-अप, कोई खाता नहीं-बस बोलें और लिखवाएँ।
यह कैसे काम करता है
- माइक्रोफ़ोन पहुँच की अनुमति दें: पूछे जाने पर ब्राउज़र को माइक्रोफ़ोन की अनुमति दें, ऑडियो स्थानीय रहता है और कभी भी सर्वर पर नहीं भेजा जाता।
- डिक्टेशन शुरू करें: शुरू पर क्लिक करें और स्पष्ट रूप से बोलें। जैसे ही Web Speech API उन्हें पहचानता है, आपके शब्द वास्तविक समय में दिखाई देते हैं।
- ट्रांसक्रिप्ट संपादित करें: पहचाना गया पाठ पूरी तरह संपादन योग्य है, किसी भी त्रुटि को सीधे लिखने के क्षेत्र में ठीक करें।
- कॉपी करें या डाउनलोड करें: ट्रांसक्रिप्ट को अपने क्लिपबोर्ड पर कॉपी करें या .txt फ़ाइल के रूप में डाउनलोड करें।
वाणी से पाठ का उपयोग क्यों करें?
वाइस डिक्टेशन ज़्यादातर लोगों के लिए टाइपिंग से 3 to 4 गुना तेज़ है और लंबे समय तक की-बोर्ड के उपयोग से होने वाले दोहराव तनाव को कम करता है। Web Speech API का उपयोग करके ब्राउज़र-आधारित वाणी पहचान अब Chromium-आधारित ब्राउज़रों और Safari में उपलब्ध है, जो बिना किसी बैकएंड सेवा के कई भाषाओं के लिए उच्च सटीकता प्रदान करती है। इसका उपयोग ईमेल, नोट्स, ब्लॉग पोस्ट और फ़ॉर्म इंट्री को डिक्टेट करने के लिए करें, या उस ऑडियो की कच्ची ट्रांसक्रिप्ट बनाने के लिए जिसे आप सुन रहे हैं। सुलभता के लिए, मोटर विकलांगता वाले उपयोगकर्ताओं या जिन्हें टाइप करना मुश्किल लगता है, उनके लिए वाणी इनपुट आवश्यक है।
विशेषताएँ
- वास्तविक-समय ट्रांसक्रिप्शन, जब आप बोलते हैं तो शब्द दिखाई देते हैं
- बहु-भाषा समर्थन, 30 से अधिक भाषाएँ और उपभाषाएँ
- निरंतर मोड, क्लिक करने के लिए रुके बिना डिक्टेट करें
- गोपनीयता-प्रथम, ऑडियो को ब्राउज़र द्वारा स्थानीय रूप से प्रोसेस किया जाता है
- संपादन योग्य आउटपुट, पहचान त्रुटियों को सिंगल लाइन में ठीक करें
ब्राउज़र वाक्-से-पाठ वास्तव में क्या करता है
वाक् पहचान (Automatic Speech Recognition, ASR भी कहलाती है) बोले गए ऑडियो को लिखित पाठ में परिवर्तित करती है। आधुनिक ASR सिस्टम एक ध्वनिक मॉडल (ध्वनियाँ ध्वनियमों से कैसे मेल खाती हैं), एक भाषा मॉडल (वास्तविक भाषा में शब्द और वाक्यांश कैसे एक साथ जाते हैं) और एक डिकोडर को संयोजित करते हैं जो ऑडियो दिए जाने पर सबसे अधिक संभावित शब्द अनुक्रम पाता है। 2010 के दशक की क्रांति गहन शिक्षा थी: न्यूरल नेटवर्क ने ध्वनिक और भाषा दोनों मॉडलिंग के लिए पहले के Hidden Markov Models को बदल दिया, स्वच्छ भाषण पर लगभग 80% सटीकता से सहयोगी एकल-वक्ता ऑडियो पर 95%+ तक उठाया। 2022 तक, OpenAI के Whisper ने प्रदर्शित किया कि एक एकल बहुभाषी मॉडल 99 भाषाओं में विशेष सिस्टम को मिला सकता है या उनसे आगे निकल सकता है।
यह टूल ब्राउज़र की Web Speech API का उपयोग करता है, Chrome 25 (2013) में पेश किया गया और Edge, Safari और अधिकांश Chromium ब्राउज़रों में धीरे-धीरे जोड़ा गया ब्राउज़र-में ASR के लिए W3C मानक। API एक SpeechRecognition ऑब्जेक्ट उजागर करती है जो माइक्रोफ़ोन ऑडियो को ब्राउज़र द्वारा कार्यान्वित किसी भी वाक् सेवा को स्ट्रीम करती है: Chrome और Edge ऑडियो को क्रमशः Google और Microsoft की क्लाउड वाक् सेवाओं पर रूट करते हैं, जबकि iOS 17+ और macOS Sonoma+ पर Safari पहचान को डिवाइस पर चलाता है। Firefox बिल्कुल भी Web Speech API लागू नहीं करता। यह गोपनीयता अंतर मायने रखता है: टूल स्वयं आपके ब्राउज़र में चलता है और आपका ऑडियो कभी नहीं देखता, लेकिन Chrome और Edge प्रसंस्करण के लिए ऑडियो को Google/Microsoft सर्वर पर प्रसारित करते हैं।
अधिकांश उपयोगकर्ताओं के लिए, टाइप करने बनाम ट्रेड-ऑफ नाटकीय है। कार्यालय कर्मियों के लिए औसत टाइपिंग गति प्रति मिनट 40 से 60 शब्द है; औसत भाषण प्रति मिनट 130 से 150 शब्द है। प्रारंभिक पाठ प्राप्त करने के लिए वॉयस डिक्टेशन 2x से 3x तेज़ है, चेतावनी के साथ कि बाद में संपादन आमतौर पर अभी भी टाइप करना है। वॉयस इनपुट पहुँच के लिए भी मायने रखता है: मोटर विकलांगता, बार-बार तनाव या अस्थायी चोटों वाले उपयोगकर्ता जब टाइप करना अव्यवहारिक होता है, तो आवाज से पाठ उत्पन्न कर सकते हैं। भाषा सीखने वालों के लिए, यह सुनना कि क्या सिस्टम ने आपके भाषण को सही ढंग से पहचाना, उच्चारण पर प्रतिक्रिया प्रदान करता है। बैठक कैप्चर के लिए, वास्तविक समय में प्रतिलेख प्रतिभागियों और अनुपस्थित सहयोगियों दोनों की मदद करते हैं।
यह टूल पर्दे के पीछे कैसे काम करता है
जब आप 'रिकॉर्डिंग शुरू करें' पर क्लिक करते हैं, पेज एक SpeechRecognition ऑब्जेक्ट (या पुराने Chrome में webkitSpeechRecognition) बनाता है और start() कॉल करता है। यदि पहले प्रदान नहीं की गई है तो ब्राउज़र माइक्रोफ़ोन अनुमति का अनुरोध करता है, फिर सिस्टम वाक् सेवा पर कैप्चर किए गए ऑडियो की स्ट्रीमिंग शुरू करता है। आपके द्वारा चुना गया भाषा टैग (जैसे en-US, fr-FR, zh-CN) सेवा को पास किया जाता है ताकि यह उपयुक्त ध्वनिक और भाषा मॉडल लोड करे।
ब्राउज़र पेज को दो प्रकार के परिणाम देता है: अंतरिम परिणाम (आंशिक सर्वश्रेष्ठ अनुमान, नया ऑडियो आते ही प्रति सेकंड 5 से 20 बार अपडेट होते हैं) और अंतिम परिणाम (एक पूर्ण उच्चारण का लॉक-इन प्रतिलेखन, आमतौर पर तब जारी होता है जब वक्ता एक पल के लिए रुकता है)। टूल का textarea हल्की शैली में अंतरिम परिणाम दिखाता है और अंतिम परिणाम आते ही उन्हें लॉक करता है। शब्द काउंटर केवल अंतिम परिणामों से अपडेट होता है, इसलिए अंतरिम अनुमान बदलते समय यह झिलमिलाता नहीं है। निरंतर मोड (एक चेकबॉक्स विकल्प) यदि ब्राउज़र लंबे मौन के बाद इसे समाप्त करता है तो स्वचालित रूप से पहचान सत्र पुनरारंभ करता है, जो Chrome पर सामान्य है लेकिन Safari पर दुर्लभ है।
एक बार जब आप रुक जाते हैं, प्रतिलेख textarea में रहता है, पूरी तरह संपादन योग्य। कॉपी और डाउनलोड बटन textarea में टेक्स्ट पर काम करते हैं; दोनों स्थानीय रूप से होते हैं, बिना सर्वर के शामिल। टूल स्वयं कभी भी आपके ऑडियो या प्रतिलेख को कहीं भी प्रसारित नहीं करता; एकमात्र नेटवर्क गतिविधि वह है जो ब्राउज़र आंतरिक रूप से Google या Microsoft की वाक् सेवा के साथ संचार करने के लिए करता है (या कोई नहीं, Safari पर)। आपका प्रतिलेख कभी संग्रहीत नहीं होता: पेज ताज़ा करें और यह चला गया जब तक आपने इसे पहले कॉपी या डाउनलोड नहीं किया।
वाक् पहचान का संक्षिप्त इतिहास
- Audrey, IBM 1952।बेल लैब्स ने पहली वाक् पहचान प्रणाली, 'Audrey' बनाई, जो एकल प्रशिक्षित वक्ता से बोली गई 0 से 9 तक की संख्याओं को पहचान सकती थी। सिस्टम एक कमरे को भर देता था और प्रति अंक कई सेकंड लेता था। IBM 1962 में Shoebox के साथ अनुसरण करता है, 16 बोले गए अंग्रेजी शब्दों को पहचानता है।
- Hidden Markov Models, 1970 और 1980 के दशक।IBM, CMU और बेल लैब्स के शोधकर्ता भाषण पर Hidden Markov Models (HMMs) लागू करते हैं, नाटकीय रूप से सटीकता और शब्दावली आकार में सुधार करते हैं। कार्नेगी मेलन का Harpy (1976) कई वक्ताओं से लगभग 1,000 शब्दों को पहचानता है। तकनीक 2010 तक वाक् पहचान का आधार बनी रहती है।
- Dragon NaturallySpeaking, 1997।Dragon Systems Windows PCs के लिए पहला व्यापक रूप से उपयोग किया जाने वाला वाणिज्यिक डिक्टेशन सॉफ़्टवेयर लॉन्च करता है। वक्ता प्रशिक्षण (आपकी आवाज़ के लिए कैलिब्रेट करने के लिए एक मार्ग को ज़ोर से पढ़ना) में 30 मिनट लगते हैं; इष्टतम परिस्थितियों में सटीकता लगभग 95% तक पहुँचती है। 2000 के दशक भर में कानूनी प्रतिलेखन, चिकित्सा डिक्टेशन और पहुँच के लिए मानक बन जाता है।
- Apple Siri, 2011।Apple Siri Inc. का अधिग्रहण करता है और iPhone 4S में वाक् पहचान को एकीकृत करता है। पहली बार, वाक् पहचान एक मुख्यधारा उपभोक्ता सुविधा है, जिसे प्रतिदिन सैकड़ों लाखों उपयोगकर्ता एक्सेस करते हैं। Google Now (2012) और Amazon Alexa (2014) अनुसरण करते हैं।
- ब्राउज़रों में Web Speech API, 2012 से 2013।Google Chrome 25 में
webkitSpeechRecognitionजोड़ता है, जल्द ही W3C Web Speech API के रूप में मानकीकृत। वेब पेज देशी ऐप की आवश्यकता के बिना उसी वाक् पहचान तक पहुँच प्राप्त करते हैं जो Google search और Now को शक्ति देती है। अगले दशक में Chrome, Edge, Safari और अन्य Chromium ब्राउज़रों में अपनाने का विस्तार होता है। - Whisper और डिवाइस पर ASR, 2022 से 2024।OpenAI Whisper जारी करता है (सितंबर 2022), 680,000 घंटे के ऑडियो पर प्रशिक्षित एक ओपन-सोर्स बहुभाषी वाक् पहचान मॉडल। 99 भाषाओं में मानव-स्तर की सटीकता के पास पहुँचता है। iOS 17 और macOS Sonoma (2023) पर Apple का डिवाइस पर डिक्टेशन Apple के सर्वरों को ऑडियो भेजने की आवश्यकता को हटाता है। डिवाइस पर, गोपनीयता-संरक्षण वाली वाक् पहचान की प्रवृत्ति तेज होती है।
वास्तविक दुनिया के कार्यप्रवाह
- ईमेल और संदेश डिक्टेट करना।लंबे लेखन के लिए जहाँ टाइप करना धीमा है, वाक्-से-पाठ कीबोर्ड इनपुट की तुलना में 2x से 3x कम समय में सामग्री का मसौदा तैयार करता है। सामान्य कार्यप्रवाह: पहला मसौदा डिक्टेट करें, फिर पढ़ें और कीबोर्ड से त्रुटियाँ ठीक करें। ईमेल, Slack संदेश, सोशल मीडिया पोस्ट और किसी भी पाठ के लिए अच्छी तरह से काम करता है जहाँ विचार कीबोर्ड पर की तुलना में मौखिक रूप से अधिक आसानी से बहते हैं।
- बैठक और व्याख्यान नोट लेना।अपने लैपटॉप को एक स्पीकर (या स्वयं) के पास रखें और बैठक या व्याख्यान के दौरान प्रतिलेख चलने दें। आउटपुट हस्तलिखित नोट्स से अधिक शब्दशः विवरण कैप्चर करता है। कई वक्ताओं और उच्चारणों वाली जटिल बैठकों के लिए, Otter.ai जैसे समर्पित टूल साफ-सुथरे प्रतिलेख उत्पन्न करते हैं; एकल व्याख्यान के लिए, ब्राउज़र-आधारित डिक्टेशन पर्याप्त और मुफ्त है।
- मोटर विकलांगता के लिए पहुँच।गठिया, बार-बार तनाव की चोट, पक्षाघात या अन्य मोटर सीमाओं वाले उपयोगकर्ताओं के लिए, वॉयस इनपुट सुविधा नहीं बल्कि प्राथमिक एक्सेस विधि है। ब्राउज़र Web Speech API माइक्रोफ़ोन वाले किसी भी डिवाइस पर काम करती है, विशेष हार्डवेयर की आवश्यकता नहीं होती और तुरंत काम करती है। भारी उपयोग के लिए, समर्पित एक्सेसिबिलिटी टूल (Dragon, Apple Voice Control, Windows Voice Access) गहरा सिस्टम एकीकरण प्रदान करते हैं जिसमें केवल टेक्स्ट इनपुट नहीं बल्कि OS स्वयं को नियंत्रित करना शामिल है।
- पत्रकारिता और साक्षात्कार प्रतिलेखन।रिपोर्टर साक्षात्कारों के बीच लेखों का मसौदा तैयार करने और रिकॉर्ड किए गए साक्षात्कारों के मोटे प्रतिलेख तैयार करने के लिए वॉयस डिक्टेशन का उपयोग करते हैं। ब्राउज़र टूल पूर्ण प्रतिलेखन सेवा नहीं है (एकल वक्ता, एकल ऑडियो स्रोत), लेकिन 'मुझे एक प्रारंभिक बिंदु दें जिसे मैं संपादित कर सकूँ' कार्यप्रवाह के लिए, यह प्लेबैक से पूरे प्रतिलेख को टाइप करने की तुलना में महत्वपूर्ण समय बचाता है।
- भाषा सीखने के लिए उच्चारण प्रतिक्रिया।भाषा को उस पर सेट करें जो आप सीख रहे हैं, एक वाक्य बोलें और पढ़ें कि सिस्टम ने क्या प्रतिलेखित किया। यदि पहचाना गया पाठ आपकी इच्छानुसार से मेल खाता है, तो आपका उच्चारण स्पष्ट था; यदि भिन्न है, तो आपके पास विशिष्ट प्रतिक्रिया है कि किन ध्वनियों को काम की आवश्यकता है। मुफ्त, तत्काल, और 30+ भाषाओं में चलता है।
- लंबी प्रविष्टियों के लिए फ़ॉर्म भरना।नौकरी आवेदन, ग्राहक प्रतिक्रिया फ़ॉर्म या लंबे टेक्स्ट फ़ील्ड वाले सहायता टिकटों के लिए, डिक्टेशन पेज नेविगेट करने के लिए अपने हाथों को मुक्त रखते हुए टाइप करने से तेज़ आउटपुट उत्पन्न करता है। टैबलेट और फ़ोन पर विशेष रूप से उपयोगी जहाँ ऑन-स्क्रीन कीबोर्ड इनपुट को धीमा करते हैं। उत्तर बोलें, इसे फ़ॉर्म फ़ील्ड में पेस्ट करें, फिर समीक्षा करें।
सामान्य नुकसान और उनका क्या मतलब है
- उच्चारण और शोर सटीकता को कम करते हैं।वाक् पहचान मॉडल मुख्य रूप से कुछ उच्चारण किस्मों (सामान्य अमेरिकी अंग्रेज़ी, RP ब्रिटिश, आदि) पर प्रशिक्षित होते हैं। मजबूत क्षेत्रीय उच्चारण, दूसरी भाषा के वक्ता और पृष्ठभूमि शोर सटीकता को 95%+ से 70% या कम तक गिरा सकते हैं। गैर-मानक उच्चारणों के लिए, थोड़ा धीरे और स्पष्ट रूप से बोलें, माइक्रोफ़ोन के करीब जाएँ, और अपने उच्चारण पर प्रशिक्षित समर्पित टूल या Dragon जैसे वक्ता अनुकूलन वाले पर विचार करें।
- विराम चिह्न अनुपस्थित या अविश्वसनीय हैं।Web Speech API स्वचालित रूप से विराम चिह्न सम्मिलित नहीं करती; 'पूर्ण विराम' या 'प्रश्न चिह्न' कहना वास्तविक शब्द सम्मिलित करता है, विराम चिह्न नहीं। कुछ विशेष डिक्टेशन टूल (Dragon, Apple Dictation) विराम चिह्न के लिए वॉयस कमांड की व्याख्या करते हैं, लेकिन ब्राउज़र API नहीं करती। डिक्टेशन के बाद संपादन पास में विराम चिह्न जोड़ने की योजना बनाएँ।
- ब्राउज़र टाइमआउट अनपेक्षित रूप से सत्रों को समाप्त करते हैं।Chrome लगभग 30 से 60 सेकंड के मौन के बाद या कभी-कभी उच्चारण के बीच में वाक् पहचान समाप्त करता है। टूल का निरंतर मोड विकल्प स्वचालित रूप से पहचान पुनरारंभ करता है, लेकिन आप जोड़ों पर संक्षिप्त विराम या छूटे हुए शब्दों को देख सकते हैं। लंबे डिक्टेशन सत्रों के लिए, कभी-कभी अंतराल की अपेक्षा करें। Safari लंबे सत्रों को अधिक शालीनता से संभालता है।
- Firefox Web Speech API का समर्थन नहीं करता।Mozilla ने Firefox में Web Speech API लागू नहीं करने का चयन किया, गोपनीयता और जटिलता चिंताओं का हवाला देते हुए। Firefox उपयोगकर्ता इस टूल को खोलते समय 'वाक् पहचान समर्थित नहीं' देखते हैं। एक्सेसिबिलिटी-निर्भर Firefox उपयोगकर्ताओं के लिए, यह एक महत्वपूर्ण अंतर है; Chrome, Edge या एक समर्पित स्क्रीन-रीडर-एकीकृत टूल की आवश्यकता है।
- Chrome और Edge ऑडियो को Google या Microsoft को भेजते हैं।इस साइट पर अधिकांश ब्राउज़र टूल के विपरीत, Chrome और Edge में Web Speech API डिवाइस पर नहीं चलती; आपका ऑडियो प्रसंस्करण के लिए Google या Microsoft की वाक् सेवा को प्रसारित किया जाता है। गोपनीय सामग्री (कानूनी गवाही, चिकित्सा डिक्टेशन, मालिकाना योजना) के लिए, यह एक सार्थक गोपनीयता विचार है। Safari का उपयोग करें (जो iOS 17+ और macOS Sonoma+ पर डिवाइस पर है) या Whisper जैसा समर्पित ऑफ़लाइन टूल जो स्थानीय रूप से चल रहा है।
- होमोफोन और उचित संज्ञाएँ मॉडल को ठोकर खाते हैं।'उनके / वहाँ / वे हैं', 'से / भी / दो', 'Sean / Shawn' जैसे नाम संदर्भ से अनुमान लगाए जाते हैं, कभी-कभी गलत। तकनीकी शब्दजाल, ब्रांड नाम, विदेशी शब्द और असामान्य शब्दावली विशेष रूप से त्रुटि-प्रवण होती है। सबूत पढ़ने की योजना बनाएँ, विशेष रूप से उस सामग्री के लिए जो आगे की समीक्षा के बिना प्रकाशित या भेजी जाएगी।
गोपनीयता: ऑडियो हैंडलिंग ब्राउज़र के अनुसार भिन्न होती है
इस साइट पर अधिकांश टूल के विपरीत जो पूरी तरह से क्लाइंट-साइड चलते हैं, Web Speech API के गोपनीयता गुण इस पर निर्भर करते हैं कि आप कौन सा ब्राउज़र उपयोग करते हैं। Chrome और Edge आपके माइक्रोफ़ोन ऑडियो को Google और Microsoft की क्लाउड वाक् पहचान सेवाओं को प्रसारित करते हैं। दोनों कंपनियाँ कहती हैं कि वे वाक् पहचान प्रश्नों के लिए ऑडियो को लंबे समय तक संग्रहीत नहीं करतीं (उपयोगकर्ता-प्रशिक्षित वॉयस प्रोफाइल के विपरीत), लेकिन ऑडियो आपका डिवाइस छोड़ता है, उनके नेटवर्क से गुजरता है और उनके सर्वर पर संसाधित किया जाता है। iOS 17+ और macOS Sonoma+ पर Safari Apple के डिवाइस-पर ASR का उपयोग करके पूरी तरह से डिवाइस पर वाक् पहचान चलाता है, इसलिए आपका ऑडियो आपके Mac या iPhone को कभी नहीं छोड़ता। पुराने Safari संस्करण और अन्य Apple ब्राउज़र भिन्न हो सकते हैं।
Absolutool स्वयं कुछ भी प्राप्त नहीं करता। पेज ब्राउज़र की वाक् API को कॉल करता है, ब्राउज़र ऑडियो को संभालता है (या तो डिवाइस पर या इसके विक्रेता की क्लाउड सेवा के माध्यम से), और केवल परिणामी प्रतिलेख टेक्स्ट पेज में वापस आता है। टूल फिर टेक्स्ट दिखाता है और आपको इसे कॉपी या डाउनलोड करने देता है; पेज स्वयं द्वारा कोई सर्वर कॉल नहीं किया जाता। गोपनीय सामग्री से निपटने वाले उपयोगकर्ताओं के लिए, अनुशंसित दृष्टिकोण है: (1) डिवाइस पर प्रसंस्करण के लिए हाल के Apple डिवाइस पर Safari का उपयोग करें, या (2) स्थानीय रूप से चल रहे Whisper जैसा समर्पित ऑफ़लाइन टूल का उपयोग करें, या (3) स्वीकार करें कि Chrome और Edge Google/Microsoft के माध्यम से ऑडियो को रूट करते हैं और केवल गैर-संवेदनशील सामग्री के लिए उनका उपयोग करें।
जब कोई दूसरा उपकरण सही विकल्प हो
- ऑफ़लाइन प्रतिलेखन के लिए Whisper।OpenAI का Whisper (ओपन सोर्स, मुफ्त) एक बार के डाउनलोड के बाद पूरी तरह से आपकी स्थानीय मशीन पर चलता है। मॉडल स्पष्ट ऑडियो के लिए मानव स्तर के पास पहुँचने वाली सटीकता के साथ 99 भाषाओं को संभालता है। रीयल-टाइम संचालन के लिए Python या कई GUI रैपरों में से एक (Whisper Desktop, MacWhisper, Buzz) और एक यथोचित शक्तिशाली मशीन की आवश्यकता होती है। गोपनीय सामग्री, ऑफ़लाइन संचालन या रिकॉर्ड की गई ऑडियो फ़ाइलों के बैच-प्रतिलेखन के लिए, Whisper सही उपकरण है।
- पेशेवर डिक्टेशन के लिए Dragon NaturallySpeaking।Dragon (अब Nuance/Microsoft के स्वामित्व में, संस्करण के आधार पर $200 से $500) निरंतर पेशेवर डिक्टेशन के लिए उच्चतम सटीकता प्रदान करता है, वक्ता प्रशिक्षण, कस्टम शब्दावली, विराम चिह्न और स्वरूपण के लिए वॉयस कमांड और Microsoft Word और अन्य ऐप्स के साथ गहरे एकीकरण के साथ। कानूनी प्रतिलेखन, चिकित्सा डिक्टेशन या जो भी प्रति दिन घंटों डिक्टेट करता है, कीमत उचित है।
- बहु-वक्ता बैठक प्रतिलेखों के लिए Otter.ai।Otter.ai (फ्रीमियम, Pro के लिए $8.33/महीना) वक्ता डायराइज़ेशन (जानना कि किसने क्या कहा), स्वचालित विराम चिह्न, सारांशीकरण और Zoom, Teams और Google Meet के साथ एकीकरण के साथ बैठक प्रतिलेखन में विशेषज्ञता रखता है। कई प्रतिभागियों वाली बैठकों के लिए जहाँ श्रेय मायने रखता है, Otter सही उपकरण है। गोपनीयता ट्रेडऑफ़: बैठकें Otter के सर्वरों पर संग्रहीत होती हैं।
- सिस्टम-वाइड वॉयस इनपुट के लिए मूल OS डिक्टेशन।Windows Voice Access, macOS Voice Control / Enhanced Dictation और iOS / Android सिस्टम डिक्टेशन कहीं भी काम करते हैं जहाँ आप टाइप कर सकते हैं, केवल एक वेब पेज में नहीं। एक्सेसिबिलिटी उपयोगकर्ताओं के लिए जिन्हें पूरे OS में वॉयस इनपुट की आवश्यकता होती है, मूल डिक्टेशन ब्राउज़र टूल की तुलना में अधिक व्यावहारिक है। macOS Enhanced Dictation और iOS 17+ डिक्टेशन डिवाइस पर हैं।
अधिक अक्सर पूछे जाने वाले प्रश्न
एक मिनट के बाद पहचान क्यों रुक जाती है?
Chrome और Edge में अंतर्निहित टाइमआउट हैं जो लगभग 30 से 60 सेकंड के बाद Web Speech पहचान सत्रों को समाप्त करते हैं, जिसका उद्देश्य बैंडविड्थ बचाना और आकस्मिक अनिश्चित रिकॉर्डिंग को रोकना है। जब ऐसा हो तो स्वचालित रूप से पहचान पुनरारंभ करने के लिए टूल में निरंतर मोड सक्षम करें। निरंतर मोड सत्रों के बीच संक्षिप्त विराम प्रस्तुत करता है (आमतौर पर एक सेकंड से कम), जो जोड़ों पर कभी-कभी छूटे हुए शब्दों के परिणामस्वरूप हो सकता है। Safari लंबे सत्रों को टाइमआउट के बिना अधिक शालीनता से संभालता है।
मेरी अपेक्षा से सटीकता कम क्यों है?
तीन कारक: (1) आपका उच्चारण प्रशिक्षण डेटा से भिन्न हो सकता है; एक करीबी भाषा संस्करण आज़माने पर विचार करें (जैसे, en-IN भारतीय अंग्रेज़ी के लिए, en-AU ऑस्ट्रेलियाई के लिए)। (2) पृष्ठभूमि शोर, माइक्रोफ़ोन दूरी और ऑडियो गुणवत्ता मायने रखती है; शांत कमरा और निकट माइक्रोफ़ोन 95%+ सटीकता उत्पन्न करते हैं, जबकि शोर वातावरण और दूर माइक्रोफ़ोन 70% या कम तक गिर जाता है। (3) विशेष शब्दावली (तकनीकी शब्द, उचित संज्ञाएँ, ब्रांड नाम) सामान्य भाषण से अधिक कठिन है; उच्च-सटीकता पेशेवर डिक्टेशन के लिए, Dragon का वक्ता प्रशिक्षण और कस्टम शब्दावली लागत के लायक है।
क्या मैं आवाज से विराम चिह्न डिक्टेट कर सकता हूँ?
इस टूल में नहीं। Web Speech API विराम चिह्न के लिए वॉयस कमांड की व्याख्या नहीं करती; 'पूर्ण विराम' कहना 'पूर्ण विराम' शब्द सम्मिलित करता है, '.' चिह्न नहीं। कुछ समर्पित डिक्टेशन टूल (Dragon, Apple Dictation, Windows Voice Access) बोले गए विराम चिह्न कमांड को पहचानते हैं। ब्राउज़र-आधारित डिक्टेशन के लिए, विशिष्ट कार्यप्रवाह है: शब्दों को डिक्टेट करें, फिर कीबोर्ड के साथ संपादन पास में विराम चिह्न जोड़ें। आधुनिक लॉन्ग-फ़ॉर्म मॉडल (Whisper) अक्सर भाषण पैटर्न के आधार पर स्वचालित रूप से विराम चिह्न जोड़ते हैं।
क्या यह iPhone पर काम करता है?
हाँ, Safari के माध्यम से iOS 14.5 और बाद में। iOS 17 ने Safari के Web Speech API कार्यान्वयन के माध्यम से डिवाइस-पर वाक् पहचान लाई, इसलिए आपका ऑडियो आपके iPhone को कभी नहीं छोड़ता। iPhone या iPad पर निरंतर डिक्टेशन के लिए, आप सिस्टम-वाइड iOS डिक्टेशन का भी उपयोग कर सकते हैं (कीबोर्ड पर माइक्रोफ़ोन आइकन पर टैप करें), जो OS में किसी भी टेक्स्ट फ़ील्ड में काम करता है।
Firefox इसका समर्थन क्यों नहीं करता?
Mozilla ने Firefox में Web Speech API लागू नहीं की है, मुख्य रूप से Chrome और Edge द्वारा उपयोग किए जाने वाले क्लाउड-रूटिंग मॉडल के साथ गोपनीयता चिंताओं और गोपनीयता-संरक्षण विकल्प को लागू करने की इंजीनियरिंग जटिलता के कारण। Mozilla के बग ट्रैकर पर Firefox उपयोगकर्ता वर्षों से वाक् समर्थन का अनुरोध कर रहे हैं; Mozilla की आधिकारिक स्थिति यह है कि सार्थक स्थानीय वाक् पहचान के लिए महत्वपूर्ण संसाधनों की आवश्यकता होती है और उन्होंने इसे प्राथमिकता नहीं दी है। अभी के लिए, वॉयस इनपुट चाहने वाले Firefox उपयोगकर्ताओं को Chrome, Edge, Safari या OS-स्तर डिक्टेशन जैसे सिस्टम-वाइड समाधान का उपयोग करना चाहिए।
क्या मैं पहले से रिकॉर्ड की गई ऑडियो फ़ाइल का प्रतिलेखन कर सकता हूँ?
सीधे नहीं। Web Speech API केवल लाइव माइक्रोफ़ोन इनपुट स्वीकार करती है, फ़ाइल अपलोड नहीं। रिकॉर्ड की गई फ़ाइल को प्रतिलेखित करने के लिए, समाधान यह है कि अपने कंप्यूटर के स्पीकर के माध्यम से ऑडियो फ़ाइल चलाएँ (या Soundflower या BlackHole जैसे ऑडियो रूटिंग सॉफ़्टवेयर का उपयोग करें) जबकि यह उपकरण माइक्रोफ़ोन के माध्यम से सुनता है। ध्वनिक विकृति के कारण यह कुछ सटीकता खो देता है। रिकॉर्ड किए गए ऑडियो के उच्च-गुणवत्ता प्रतिलेखन के लिए, एक समर्पित उपकरण का उपयोग करें: Whisper (ऑफ़लाइन, मुफ्त), Otter.ai, या Rev जैसी प्रतिलेखन सेवा। कभी-कभार अनौपचारिक प्रतिलेखन के लिए, माइक्रोफ़ोन के माध्यम से प्लेबैक तरकीब काम करती है।