Is my data safe and private?

Depends on your browser. Safari transcribes entirely on-device, nothing leaves your Mac, iPhone or iPad. Chrome and Edge use their speech APIs, which send short audio chunks to Google or Microsoft servers for transcription and return the text. Absolutool itself never sees your audio, we only receive the text the browser returns.

Does this work with my Bluetooth or USB headset?

Yes, but the browser uses whatever your OS has set as the default input device. If nothing seems to be captured, check your system settings (Windows Sound settings, macOS System Preferences → Sound, Android Bluetooth audio) and make sure your headset is the default input. Reload the page after changing it.

Why is nothing being transcribed?

Most common causes, (1) microphone permission was denied (check the 🔒 icon in the address bar); (2) your OS is capturing audio from a different mic than you expect; (3) background noise is too loud; (4) you're using Firefox, which doesn't implement the Web Speech API. Chrome, Edge, Safari, and Opera all work.

Does it work on mobile?

Yes on Chrome Android and Safari iOS. Some Bluetooth headsets on Android only activate the built-in phone mic instead of the headset mic when a browser requests audio, an OS-level quirk we can't fix from the web page.

Which languages are supported?

60+ languages via the Language dropdown, including English variants, French, Spanish, German, Portuguese, Chinese, Japanese, Korean, Hindi, Arabic, and more. Actual quality depends on your browser's speech service.

Does the transcript stay on my device?

Yes. The text itself never leaves your browser. Only the microphone audio (in Chrome/Edge) is sent to the speech service for transcription; Absolutool doesn't receive or store anything.

मुफ्त ऑनलाइन वाणी से पाठ

अपनी आवाज़ को तुरंत पाठ में बदलें। कोई अपलोड, कोई साइन-अप, कोई खाता नहीं-बस बोलें और लिखवाएँ।

🔒 आपके ब्राउज़र की अंतर्निहित वाक् पहचान का उपयोग करता है

भाषा:

शब्द गिनती: 0

निरंतर मोड (पहचान को ऑटो-पुनः आरंभ करें)

नोट: इस टूल को वाणी पहचान समर्थन वाले एक आधुनिक ब्राउज़र (Chrome, Edge, Safari, Opera) की आवश्यकता है। माइक्रोफ़ोन की पहुँच आवश्यक है और इसका उपयोग केवल आपके रिकॉर्डिंग सत्र के दौरान होगा।

यह कैसे काम करता है

माइक्रोफ़ोन पहुँच की अनुमति दें: पूछे जाने पर ब्राउज़र को माइक्रोफ़ोन की अनुमति दें, ऑडियो स्थानीय रहता है और कभी भी सर्वर पर नहीं भेजा जाता।
डिक्टेशन शुरू करें: शुरू पर क्लिक करें और स्पष्ट रूप से बोलें। जैसे ही Web Speech API उन्हें पहचानता है, आपके शब्द वास्तविक समय में दिखाई देते हैं।
ट्रांसक्रिप्ट संपादित करें: पहचाना गया पाठ पूरी तरह संपादन योग्य है, किसी भी त्रुटि को सीधे लिखने के क्षेत्र में ठीक करें।
कॉपी करें या डाउनलोड करें: ट्रांसक्रिप्ट को अपने क्लिपबोर्ड पर कॉपी करें या .txt फ़ाइल के रूप में डाउनलोड करें।

वाणी से पाठ का उपयोग क्यों करें?

वाइस डिक्टेशन ज़्यादातर लोगों के लिए टाइपिंग से 3 to 4 गुना तेज़ है और लंबे समय तक की-बोर्ड के उपयोग से होने वाले दोहराव तनाव को कम करता है। Web Speech API का उपयोग करके ब्राउज़र-आधारित वाणी पहचान अब Chromium-आधारित ब्राउज़रों और Safari में उपलब्ध है, जो बिना किसी बैकएंड सेवा के कई भाषाओं के लिए उच्च सटीकता प्रदान करती है। इसका उपयोग ईमेल, नोट्स, ब्लॉग पोस्ट और फ़ॉर्म इंट्री को डिक्टेट करने के लिए करें, या उस ऑडियो की कच्ची ट्रांसक्रिप्ट बनाने के लिए जिसे आप सुन रहे हैं। सुलभता के लिए, मोटर विकलांगता वाले उपयोगकर्ताओं या जिन्हें टाइप करना मुश्किल लगता है, उनके लिए वाणी इनपुट आवश्यक है।

विशेषताएँ

वास्तविक-समय ट्रांसक्रिप्शन, जब आप बोलते हैं तो शब्द दिखाई देते हैं
बहु-भाषा समर्थन, 30 से अधिक भाषाएँ और उपभाषाएँ
निरंतर मोड, क्लिक करने के लिए रुके बिना डिक्टेट करें
गोपनीयता-प्रथम, ऑडियो को ब्राउज़र द्वारा स्थानीय रूप से प्रोसेस किया जाता है
संपादन योग्य आउटपुट, पहचान त्रुटियों को सिंगल लाइन में ठीक करें

ब्राउज़र वाक्-से-पाठ वास्तव में क्या करता है

वाक् पहचान (Automatic Speech Recognition, ASR भी कहलाती है) बोले गए ऑडियो को लिखित पाठ में परिवर्तित करती है। आधुनिक ASR सिस्टम एक ध्वनिक मॉडल (ध्वनियाँ ध्वनियमों से कैसे मेल खाती हैं), एक भाषा मॉडल (वास्तविक भाषा में शब्द और वाक्यांश कैसे एक साथ जाते हैं) और एक डिकोडर को संयोजित करते हैं जो ऑडियो दिए जाने पर सबसे अधिक संभावित शब्द अनुक्रम पाता है। 2010 के दशक की क्रांति गहन शिक्षा थी: न्यूरल नेटवर्क ने ध्वनिक और भाषा दोनों मॉडलिंग के लिए पहले के Hidden Markov Models को बदल दिया, स्वच्छ भाषण पर लगभग 80% सटीकता से सहयोगी एकल-वक्ता ऑडियो पर 95%+ तक उठाया। 2022 तक, OpenAI के Whisper ने प्रदर्शित किया कि एक एकल बहुभाषी मॉडल 99 भाषाओं में विशेष सिस्टम को मिला सकता है या उनसे आगे निकल सकता है।

यह टूल ब्राउज़र की Web Speech API का उपयोग करता है, Chrome 25 (2013) में पेश किया गया और Edge, Safari और अधिकांश Chromium ब्राउज़रों में धीरे-धीरे जोड़ा गया ब्राउज़र-में ASR के लिए W3C मानक। API एक SpeechRecognition ऑब्जेक्ट उजागर करती है जो माइक्रोफ़ोन ऑडियो को ब्राउज़र द्वारा कार्यान्वित किसी भी वाक् सेवा को स्ट्रीम करती है: Chrome और Edge ऑडियो को क्रमशः Google और Microsoft की क्लाउड वाक् सेवाओं पर रूट करते हैं, जबकि iOS 17+ और macOS Sonoma+ पर Safari पहचान को डिवाइस पर चलाता है। Firefox बिल्कुल भी Web Speech API लागू नहीं करता। यह गोपनीयता अंतर मायने रखता है: टूल स्वयं आपके ब्राउज़र में चलता है और आपका ऑडियो कभी नहीं देखता, लेकिन Chrome और Edge प्रसंस्करण के लिए ऑडियो को Google/Microsoft सर्वर पर प्रसारित करते हैं।

अधिकांश उपयोगकर्ताओं के लिए, टाइप करने बनाम ट्रेड-ऑफ नाटकीय है। कार्यालय कर्मियों के लिए औसत टाइपिंग गति प्रति मिनट 40 से 60 शब्द है; औसत भाषण प्रति मिनट 130 से 150 शब्द है। प्रारंभिक पाठ प्राप्त करने के लिए वॉयस डिक्टेशन 2x से 3x तेज़ है, चेतावनी के साथ कि बाद में संपादन आमतौर पर अभी भी टाइप करना है। वॉयस इनपुट पहुँच के लिए भी मायने रखता है: मोटर विकलांगता, बार-बार तनाव या अस्थायी चोटों वाले उपयोगकर्ता जब टाइप करना अव्यवहारिक होता है, तो आवाज से पाठ उत्पन्न कर सकते हैं। भाषा सीखने वालों के लिए, यह सुनना कि क्या सिस्टम ने आपके भाषण को सही ढंग से पहचाना, उच्चारण पर प्रतिक्रिया प्रदान करता है। बैठक कैप्चर के लिए, वास्तविक समय में प्रतिलेख प्रतिभागियों और अनुपस्थित सहयोगियों दोनों की मदद करते हैं।

यह टूल पर्दे के पीछे कैसे काम करता है

जब आप 'रिकॉर्डिंग शुरू करें' पर क्लिक करते हैं, पेज एक SpeechRecognition ऑब्जेक्ट (या पुराने Chrome में webkitSpeechRecognition) बनाता है और start() कॉल करता है। यदि पहले प्रदान नहीं की गई है तो ब्राउज़र माइक्रोफ़ोन अनुमति का अनुरोध करता है, फिर सिस्टम वाक् सेवा पर कैप्चर किए गए ऑडियो की स्ट्रीमिंग शुरू करता है। आपके द्वारा चुना गया भाषा टैग (जैसे en-US, fr-FR, zh-CN) सेवा को पास किया जाता है ताकि यह उपयुक्त ध्वनिक और भाषा मॉडल लोड करे।

ब्राउज़र पेज को दो प्रकार के परिणाम देता है: अंतरिम परिणाम (आंशिक सर्वश्रेष्ठ अनुमान, नया ऑडियो आते ही प्रति सेकंड 5 से 20 बार अपडेट होते हैं) और अंतिम परिणाम (एक पूर्ण उच्चारण का लॉक-इन प्रतिलेखन, आमतौर पर तब जारी होता है जब वक्ता एक पल के लिए रुकता है)। टूल का textarea हल्की शैली में अंतरिम परिणाम दिखाता है और अंतिम परिणाम आते ही उन्हें लॉक करता है। शब्द काउंटर केवल अंतिम परिणामों से अपडेट होता है, इसलिए अंतरिम अनुमान बदलते समय यह झिलमिलाता नहीं है। निरंतर मोड (एक चेकबॉक्स विकल्प) यदि ब्राउज़र लंबे मौन के बाद इसे समाप्त करता है तो स्वचालित रूप से पहचान सत्र पुनरारंभ करता है, जो Chrome पर सामान्य है लेकिन Safari पर दुर्लभ है।

एक बार जब आप रुक जाते हैं, प्रतिलेख textarea में रहता है, पूरी तरह संपादन योग्य। कॉपी और डाउनलोड बटन textarea में टेक्स्ट पर काम करते हैं; दोनों स्थानीय रूप से होते हैं, बिना सर्वर के शामिल। टूल स्वयं कभी भी आपके ऑडियो या प्रतिलेख को कहीं भी प्रसारित नहीं करता; एकमात्र नेटवर्क गतिविधि वह है जो ब्राउज़र आंतरिक रूप से Google या Microsoft की वाक् सेवा के साथ संचार करने के लिए करता है (या कोई नहीं, Safari पर)। आपका प्रतिलेख कभी संग्रहीत नहीं होता: पेज ताज़ा करें और यह चला गया जब तक आपने इसे पहले कॉपी या डाउनलोड नहीं किया।

वाक् पहचान का संक्षिप्त इतिहास

Audrey, IBM 1952।बेल लैब्स ने पहली वाक् पहचान प्रणाली, 'Audrey' बनाई, जो एकल प्रशिक्षित वक्ता से बोली गई 0 से 9 तक की संख्याओं को पहचान सकती थी। सिस्टम एक कमरे को भर देता था और प्रति अंक कई सेकंड लेता था। IBM 1962 में Shoebox के साथ अनुसरण करता है, 16 बोले गए अंग्रेजी शब्दों को पहचानता है।
Hidden Markov Models, 1970 और 1980 के दशक।IBM, CMU और बेल लैब्स के शोधकर्ता भाषण पर Hidden Markov Models (HMMs) लागू करते हैं, नाटकीय रूप से सटीकता और शब्दावली आकार में सुधार करते हैं। कार्नेगी मेलन का Harpy (1976) कई वक्ताओं से लगभग 1,000 शब्दों को पहचानता है। तकनीक 2010 तक वाक् पहचान का आधार बनी रहती है।
Dragon NaturallySpeaking, 1997।Dragon Systems Windows PCs के लिए पहला व्यापक रूप से उपयोग किया जाने वाला वाणिज्यिक डिक्टेशन सॉफ़्टवेयर लॉन्च करता है। वक्ता प्रशिक्षण (आपकी आवाज़ के लिए कैलिब्रेट करने के लिए एक मार्ग को ज़ोर से पढ़ना) में 30 मिनट लगते हैं; इष्टतम परिस्थितियों में सटीकता लगभग 95% तक पहुँचती है। 2000 के दशक भर में कानूनी प्रतिलेखन, चिकित्सा डिक्टेशन और पहुँच के लिए मानक बन जाता है।
Apple Siri, 2011।Apple Siri Inc. का अधिग्रहण करता है और iPhone 4S में वाक् पहचान को एकीकृत करता है। पहली बार, वाक् पहचान एक मुख्यधारा उपभोक्ता सुविधा है, जिसे प्रतिदिन सैकड़ों लाखों उपयोगकर्ता एक्सेस करते हैं। Google Now (2012) और Amazon Alexa (2014) अनुसरण करते हैं।
ब्राउज़रों में Web Speech API, 2012 से 2013।Google Chrome 25 में webkitSpeechRecognition जोड़ता है, जल्द ही W3C Web Speech API के रूप में मानकीकृत। वेब पेज देशी ऐप की आवश्यकता के बिना उसी वाक् पहचान तक पहुँच प्राप्त करते हैं जो Google search और Now को शक्ति देती है। अगले दशक में Chrome, Edge, Safari और अन्य Chromium ब्राउज़रों में अपनाने का विस्तार होता है।
Whisper और डिवाइस पर ASR, 2022 से 2024।OpenAI Whisper जारी करता है (सितंबर 2022), 680,000 घंटे के ऑडियो पर प्रशिक्षित एक ओपन-सोर्स बहुभाषी वाक् पहचान मॉडल। 99 भाषाओं में मानव-स्तर की सटीकता के पास पहुँचता है। iOS 17 और macOS Sonoma (2023) पर Apple का डिवाइस पर डिक्टेशन Apple के सर्वरों को ऑडियो भेजने की आवश्यकता को हटाता है। डिवाइस पर, गोपनीयता-संरक्षण वाली वाक् पहचान की प्रवृत्ति तेज होती है।

वास्तविक दुनिया के कार्यप्रवाह

ईमेल और संदेश डिक्टेट करना।लंबे लेखन के लिए जहाँ टाइप करना धीमा है, वाक्-से-पाठ कीबोर्ड इनपुट की तुलना में 2x से 3x कम समय में सामग्री का मसौदा तैयार करता है। सामान्य कार्यप्रवाह: पहला मसौदा डिक्टेट करें, फिर पढ़ें और कीबोर्ड से त्रुटियाँ ठीक करें। ईमेल, Slack संदेश, सोशल मीडिया पोस्ट और किसी भी पाठ के लिए अच्छी तरह से काम करता है जहाँ विचार कीबोर्ड पर की तुलना में मौखिक रूप से अधिक आसानी से बहते हैं।
बैठक और व्याख्यान नोट लेना।अपने लैपटॉप को एक स्पीकर (या स्वयं) के पास रखें और बैठक या व्याख्यान के दौरान प्रतिलेख चलने दें। आउटपुट हस्तलिखित नोट्स से अधिक शब्दशः विवरण कैप्चर करता है। कई वक्ताओं और उच्चारणों वाली जटिल बैठकों के लिए, Otter.ai जैसे समर्पित टूल साफ-सुथरे प्रतिलेख उत्पन्न करते हैं; एकल व्याख्यान के लिए, ब्राउज़र-आधारित डिक्टेशन पर्याप्त और मुफ्त है।
मोटर विकलांगता के लिए पहुँच।गठिया, बार-बार तनाव की चोट, पक्षाघात या अन्य मोटर सीमाओं वाले उपयोगकर्ताओं के लिए, वॉयस इनपुट सुविधा नहीं बल्कि प्राथमिक एक्सेस विधि है। ब्राउज़र Web Speech API माइक्रोफ़ोन वाले किसी भी डिवाइस पर काम करती है, विशेष हार्डवेयर की आवश्यकता नहीं होती और तुरंत काम करती है। भारी उपयोग के लिए, समर्पित एक्सेसिबिलिटी टूल (Dragon, Apple Voice Control, Windows Voice Access) गहरा सिस्टम एकीकरण प्रदान करते हैं जिसमें केवल टेक्स्ट इनपुट नहीं बल्कि OS स्वयं को नियंत्रित करना शामिल है।
पत्रकारिता और साक्षात्कार प्रतिलेखन।रिपोर्टर साक्षात्कारों के बीच लेखों का मसौदा तैयार करने और रिकॉर्ड किए गए साक्षात्कारों के मोटे प्रतिलेख तैयार करने के लिए वॉयस डिक्टेशन का उपयोग करते हैं। ब्राउज़र टूल पूर्ण प्रतिलेखन सेवा नहीं है (एकल वक्ता, एकल ऑडियो स्रोत), लेकिन 'मुझे एक प्रारंभिक बिंदु दें जिसे मैं संपादित कर सकूँ' कार्यप्रवाह के लिए, यह प्लेबैक से पूरे प्रतिलेख को टाइप करने की तुलना में महत्वपूर्ण समय बचाता है।
भाषा सीखने के लिए उच्चारण प्रतिक्रिया।भाषा को उस पर सेट करें जो आप सीख रहे हैं, एक वाक्य बोलें और पढ़ें कि सिस्टम ने क्या प्रतिलेखित किया। यदि पहचाना गया पाठ आपकी इच्छानुसार से मेल खाता है, तो आपका उच्चारण स्पष्ट था; यदि भिन्न है, तो आपके पास विशिष्ट प्रतिक्रिया है कि किन ध्वनियों को काम की आवश्यकता है। मुफ्त, तत्काल, और 30+ भाषाओं में चलता है।
लंबी प्रविष्टियों के लिए फ़ॉर्म भरना।नौकरी आवेदन, ग्राहक प्रतिक्रिया फ़ॉर्म या लंबे टेक्स्ट फ़ील्ड वाले सहायता टिकटों के लिए, डिक्टेशन पेज नेविगेट करने के लिए अपने हाथों को मुक्त रखते हुए टाइप करने से तेज़ आउटपुट उत्पन्न करता है। टैबलेट और फ़ोन पर विशेष रूप से उपयोगी जहाँ ऑन-स्क्रीन कीबोर्ड इनपुट को धीमा करते हैं। उत्तर बोलें, इसे फ़ॉर्म फ़ील्ड में पेस्ट करें, फिर समीक्षा करें।

सामान्य नुकसान और उनका क्या मतलब है

उच्चारण और शोर सटीकता को कम करते हैं।वाक् पहचान मॉडल मुख्य रूप से कुछ उच्चारण किस्मों (सामान्य अमेरिकी अंग्रेज़ी, RP ब्रिटिश, आदि) पर प्रशिक्षित होते हैं। मजबूत क्षेत्रीय उच्चारण, दूसरी भाषा के वक्ता और पृष्ठभूमि शोर सटीकता को 95%+ से 70% या कम तक गिरा सकते हैं। गैर-मानक उच्चारणों के लिए, थोड़ा धीरे और स्पष्ट रूप से बोलें, माइक्रोफ़ोन के करीब जाएँ, और अपने उच्चारण पर प्रशिक्षित समर्पित टूल या Dragon जैसे वक्ता अनुकूलन वाले पर विचार करें।
विराम चिह्न अनुपस्थित या अविश्वसनीय हैं।Web Speech API स्वचालित रूप से विराम चिह्न सम्मिलित नहीं करती; 'पूर्ण विराम' या 'प्रश्न चिह्न' कहना वास्तविक शब्द सम्मिलित करता है, विराम चिह्न नहीं। कुछ विशेष डिक्टेशन टूल (Dragon, Apple Dictation) विराम चिह्न के लिए वॉयस कमांड की व्याख्या करते हैं, लेकिन ब्राउज़र API नहीं करती। डिक्टेशन के बाद संपादन पास में विराम चिह्न जोड़ने की योजना बनाएँ।
ब्राउज़र टाइमआउट अनपेक्षित रूप से सत्रों को समाप्त करते हैं।Chrome लगभग 30 से 60 सेकंड के मौन के बाद या कभी-कभी उच्चारण के बीच में वाक् पहचान समाप्त करता है। टूल का निरंतर मोड विकल्प स्वचालित रूप से पहचान पुनरारंभ करता है, लेकिन आप जोड़ों पर संक्षिप्त विराम या छूटे हुए शब्दों को देख सकते हैं। लंबे डिक्टेशन सत्रों के लिए, कभी-कभी अंतराल की अपेक्षा करें। Safari लंबे सत्रों को अधिक शालीनता से संभालता है।
Firefox Web Speech API का समर्थन नहीं करता।Mozilla ने Firefox में Web Speech API लागू नहीं करने का चयन किया, गोपनीयता और जटिलता चिंताओं का हवाला देते हुए। Firefox उपयोगकर्ता इस टूल को खोलते समय 'वाक् पहचान समर्थित नहीं' देखते हैं। एक्सेसिबिलिटी-निर्भर Firefox उपयोगकर्ताओं के लिए, यह एक महत्वपूर्ण अंतर है; Chrome, Edge या एक समर्पित स्क्रीन-रीडर-एकीकृत टूल की आवश्यकता है।
Chrome और Edge ऑडियो को Google या Microsoft को भेजते हैं।इस साइट पर अधिकांश ब्राउज़र टूल के विपरीत, Chrome और Edge में Web Speech API डिवाइस पर नहीं चलती; आपका ऑडियो प्रसंस्करण के लिए Google या Microsoft की वाक् सेवा को प्रसारित किया जाता है। गोपनीय सामग्री (कानूनी गवाही, चिकित्सा डिक्टेशन, मालिकाना योजना) के लिए, यह एक सार्थक गोपनीयता विचार है। Safari का उपयोग करें (जो iOS 17+ और macOS Sonoma+ पर डिवाइस पर है) या Whisper जैसा समर्पित ऑफ़लाइन टूल जो स्थानीय रूप से चल रहा है।
होमोफोन और उचित संज्ञाएँ मॉडल को ठोकर खाते हैं।'उनके / वहाँ / वे हैं', 'से / भी / दो', 'Sean / Shawn' जैसे नाम संदर्भ से अनुमान लगाए जाते हैं, कभी-कभी गलत। तकनीकी शब्दजाल, ब्रांड नाम, विदेशी शब्द और असामान्य शब्दावली विशेष रूप से त्रुटि-प्रवण होती है। सबूत पढ़ने की योजना बनाएँ, विशेष रूप से उस सामग्री के लिए जो आगे की समीक्षा के बिना प्रकाशित या भेजी जाएगी।

गोपनीयता: ऑडियो हैंडलिंग ब्राउज़र के अनुसार भिन्न होती है

इस साइट पर अधिकांश टूल के विपरीत जो पूरी तरह से क्लाइंट-साइड चलते हैं, Web Speech API के गोपनीयता गुण इस पर निर्भर करते हैं कि आप कौन सा ब्राउज़र उपयोग करते हैं। Chrome और Edge आपके माइक्रोफ़ोन ऑडियो को Google और Microsoft की क्लाउड वाक् पहचान सेवाओं को प्रसारित करते हैं। दोनों कंपनियाँ कहती हैं कि वे वाक् पहचान प्रश्नों के लिए ऑडियो को लंबे समय तक संग्रहीत नहीं करतीं (उपयोगकर्ता-प्रशिक्षित वॉयस प्रोफाइल के विपरीत), लेकिन ऑडियो आपका डिवाइस छोड़ता है, उनके नेटवर्क से गुजरता है और उनके सर्वर पर संसाधित किया जाता है। iOS 17+ और macOS Sonoma+ पर Safari Apple के डिवाइस-पर ASR का उपयोग करके पूरी तरह से डिवाइस पर वाक् पहचान चलाता है, इसलिए आपका ऑडियो आपके Mac या iPhone को कभी नहीं छोड़ता। पुराने Safari संस्करण और अन्य Apple ब्राउज़र भिन्न हो सकते हैं।

Absolutool स्वयं कुछ भी प्राप्त नहीं करता। पेज ब्राउज़र की वाक् API को कॉल करता है, ब्राउज़र ऑडियो को संभालता है (या तो डिवाइस पर या इसके विक्रेता की क्लाउड सेवा के माध्यम से), और केवल परिणामी प्रतिलेख टेक्स्ट पेज में वापस आता है। टूल फिर टेक्स्ट दिखाता है और आपको इसे कॉपी या डाउनलोड करने देता है; पेज स्वयं द्वारा कोई सर्वर कॉल नहीं किया जाता। गोपनीय सामग्री से निपटने वाले उपयोगकर्ताओं के लिए, अनुशंसित दृष्टिकोण है: (1) डिवाइस पर प्रसंस्करण के लिए हाल के Apple डिवाइस पर Safari का उपयोग करें, या (2) स्थानीय रूप से चल रहे Whisper जैसा समर्पित ऑफ़लाइन टूल का उपयोग करें, या (3) स्वीकार करें कि Chrome और Edge Google/Microsoft के माध्यम से ऑडियो को रूट करते हैं और केवल गैर-संवेदनशील सामग्री के लिए उनका उपयोग करें।

जब कोई दूसरा उपकरण सही विकल्प हो

ऑफ़लाइन प्रतिलेखन के लिए Whisper।OpenAI का Whisper (ओपन सोर्स, मुफ्त) एक बार के डाउनलोड के बाद पूरी तरह से आपकी स्थानीय मशीन पर चलता है। मॉडल स्पष्ट ऑडियो के लिए मानव स्तर के पास पहुँचने वाली सटीकता के साथ 99 भाषाओं को संभालता है। रीयल-टाइम संचालन के लिए Python या कई GUI रैपरों में से एक (Whisper Desktop, MacWhisper, Buzz) और एक यथोचित शक्तिशाली मशीन की आवश्यकता होती है। गोपनीय सामग्री, ऑफ़लाइन संचालन या रिकॉर्ड की गई ऑडियो फ़ाइलों के बैच-प्रतिलेखन के लिए, Whisper सही उपकरण है।
पेशेवर डिक्टेशन के लिए Dragon NaturallySpeaking।Dragon (अब Nuance/Microsoft के स्वामित्व में, संस्करण के आधार पर $200 से $500) निरंतर पेशेवर डिक्टेशन के लिए उच्चतम सटीकता प्रदान करता है, वक्ता प्रशिक्षण, कस्टम शब्दावली, विराम चिह्न और स्वरूपण के लिए वॉयस कमांड और Microsoft Word और अन्य ऐप्स के साथ गहरे एकीकरण के साथ। कानूनी प्रतिलेखन, चिकित्सा डिक्टेशन या जो भी प्रति दिन घंटों डिक्टेट करता है, कीमत उचित है।
बहु-वक्ता बैठक प्रतिलेखों के लिए Otter.ai।Otter.ai (फ्रीमियम, Pro के लिए $8.33/महीना) वक्ता डायराइज़ेशन (जानना कि किसने क्या कहा), स्वचालित विराम चिह्न, सारांशीकरण और Zoom, Teams और Google Meet के साथ एकीकरण के साथ बैठक प्रतिलेखन में विशेषज्ञता रखता है। कई प्रतिभागियों वाली बैठकों के लिए जहाँ श्रेय मायने रखता है, Otter सही उपकरण है। गोपनीयता ट्रेडऑफ़: बैठकें Otter के सर्वरों पर संग्रहीत होती हैं।
सिस्टम-वाइड वॉयस इनपुट के लिए मूल OS डिक्टेशन।Windows Voice Access, macOS Voice Control / Enhanced Dictation और iOS / Android सिस्टम डिक्टेशन कहीं भी काम करते हैं जहाँ आप टाइप कर सकते हैं, केवल एक वेब पेज में नहीं। एक्सेसिबिलिटी उपयोगकर्ताओं के लिए जिन्हें पूरे OS में वॉयस इनपुट की आवश्यकता होती है, मूल डिक्टेशन ब्राउज़र टूल की तुलना में अधिक व्यावहारिक है। macOS Enhanced Dictation और iOS 17+ डिक्टेशन डिवाइस पर हैं।

अधिक अक्सर पूछे जाने वाले प्रश्न

एक मिनट के बाद पहचान क्यों रुक जाती है?

Chrome और Edge में अंतर्निहित टाइमआउट हैं जो लगभग 30 से 60 सेकंड के बाद Web Speech पहचान सत्रों को समाप्त करते हैं, जिसका उद्देश्य बैंडविड्थ बचाना और आकस्मिक अनिश्चित रिकॉर्डिंग को रोकना है। जब ऐसा हो तो स्वचालित रूप से पहचान पुनरारंभ करने के लिए टूल में निरंतर मोड सक्षम करें। निरंतर मोड सत्रों के बीच संक्षिप्त विराम प्रस्तुत करता है (आमतौर पर एक सेकंड से कम), जो जोड़ों पर कभी-कभी छूटे हुए शब्दों के परिणामस्वरूप हो सकता है। Safari लंबे सत्रों को टाइमआउट के बिना अधिक शालीनता से संभालता है।

मेरी अपेक्षा से सटीकता कम क्यों है?

तीन कारक: (1) आपका उच्चारण प्रशिक्षण डेटा से भिन्न हो सकता है; एक करीबी भाषा संस्करण आज़माने पर विचार करें (जैसे, en-IN भारतीय अंग्रेज़ी के लिए, en-AU ऑस्ट्रेलियाई के लिए)। (2) पृष्ठभूमि शोर, माइक्रोफ़ोन दूरी और ऑडियो गुणवत्ता मायने रखती है; शांत कमरा और निकट माइक्रोफ़ोन 95%+ सटीकता उत्पन्न करते हैं, जबकि शोर वातावरण और दूर माइक्रोफ़ोन 70% या कम तक गिर जाता है। (3) विशेष शब्दावली (तकनीकी शब्द, उचित संज्ञाएँ, ब्रांड नाम) सामान्य भाषण से अधिक कठिन है; उच्च-सटीकता पेशेवर डिक्टेशन के लिए, Dragon का वक्ता प्रशिक्षण और कस्टम शब्दावली लागत के लायक है।

क्या मैं आवाज से विराम चिह्न डिक्टेट कर सकता हूँ?

इस टूल में नहीं। Web Speech API विराम चिह्न के लिए वॉयस कमांड की व्याख्या नहीं करती; 'पूर्ण विराम' कहना 'पूर्ण विराम' शब्द सम्मिलित करता है, '.' चिह्न नहीं। कुछ समर्पित डिक्टेशन टूल (Dragon, Apple Dictation, Windows Voice Access) बोले गए विराम चिह्न कमांड को पहचानते हैं। ब्राउज़र-आधारित डिक्टेशन के लिए, विशिष्ट कार्यप्रवाह है: शब्दों को डिक्टेट करें, फिर कीबोर्ड के साथ संपादन पास में विराम चिह्न जोड़ें। आधुनिक लॉन्ग-फ़ॉर्म मॉडल (Whisper) अक्सर भाषण पैटर्न के आधार पर स्वचालित रूप से विराम चिह्न जोड़ते हैं।

क्या यह iPhone पर काम करता है?

हाँ, Safari के माध्यम से iOS 14.5 और बाद में। iOS 17 ने Safari के Web Speech API कार्यान्वयन के माध्यम से डिवाइस-पर वाक् पहचान लाई, इसलिए आपका ऑडियो आपके iPhone को कभी नहीं छोड़ता। iPhone या iPad पर निरंतर डिक्टेशन के लिए, आप सिस्टम-वाइड iOS डिक्टेशन का भी उपयोग कर सकते हैं (कीबोर्ड पर माइक्रोफ़ोन आइकन पर टैप करें), जो OS में किसी भी टेक्स्ट फ़ील्ड में काम करता है।

Firefox इसका समर्थन क्यों नहीं करता?

Mozilla ने Firefox में Web Speech API लागू नहीं की है, मुख्य रूप से Chrome और Edge द्वारा उपयोग किए जाने वाले क्लाउड-रूटिंग मॉडल के साथ गोपनीयता चिंताओं और गोपनीयता-संरक्षण विकल्प को लागू करने की इंजीनियरिंग जटिलता के कारण। Mozilla के बग ट्रैकर पर Firefox उपयोगकर्ता वर्षों से वाक् समर्थन का अनुरोध कर रहे हैं; Mozilla की आधिकारिक स्थिति यह है कि सार्थक स्थानीय वाक् पहचान के लिए महत्वपूर्ण संसाधनों की आवश्यकता होती है और उन्होंने इसे प्राथमिकता नहीं दी है। अभी के लिए, वॉयस इनपुट चाहने वाले Firefox उपयोगकर्ताओं को Chrome, Edge, Safari या OS-स्तर डिक्टेशन जैसे सिस्टम-वाइड समाधान का उपयोग करना चाहिए।

क्या मैं पहले से रिकॉर्ड की गई ऑडियो फ़ाइल का प्रतिलेखन कर सकता हूँ?

सीधे नहीं। Web Speech API केवल लाइव माइक्रोफ़ोन इनपुट स्वीकार करती है, फ़ाइल अपलोड नहीं। रिकॉर्ड की गई फ़ाइल को प्रतिलेखित करने के लिए, समाधान यह है कि अपने कंप्यूटर के स्पीकर के माध्यम से ऑडियो फ़ाइल चलाएँ (या Soundflower या BlackHole जैसे ऑडियो रूटिंग सॉफ़्टवेयर का उपयोग करें) जबकि यह उपकरण माइक्रोफ़ोन के माध्यम से सुनता है। ध्वनिक विकृति के कारण यह कुछ सटीकता खो देता है। रिकॉर्ड किए गए ऑडियो के उच्च-गुणवत्ता प्रतिलेखन के लिए, एक समर्पित उपकरण का उपयोग करें: Whisper (ऑफ़लाइन, मुफ्त), Otter.ai, या Rev जैसी प्रतिलेखन सेवा। कभी-कभार अनौपचारिक प्रतिलेखन के लिए, माइक्रोफ़ोन के माध्यम से प्लेबैक तरकीब काम करती है।