Is my video uploaded to a server?

The video file is never uploaded. It plays locally in your browser. However, the speech recognition API may send audio to the browser vendor's servers for processing.

What file size limits does this tool have?

Since all processing happens in your browser, there are no server upload limits. Performance depends on your device memory and processing power.

What video formats are supported?

This tool supports MP4, WebM, MOV, AVI, and most other common video formats. Browser support varies, but MP4 (H.264) and WebM (VP8/VP9) work in all modern browsers.

Is there a file size or duration limit?

There is no hard limit since processing happens in your browser. However, very long videos or files over 500 MB may be slow. For best results, keep files under 200 MB.

How accurate is the transcription?

Accuracy depends on audio clarity, background noise, and the language. Clear speech with minimal background noise typically yields the best results. The tool uses your browser's built-in speech recognition engine.

मुफ़्त वीडियो से टेक्स्ट ट्रांसक्रिप्शन

ब्राउज़र भाषण पहचान के माध्यम से एक वीडियो फ़ाइल से भाषण को टेक्स्ट में ट्रांसक्राइब करें। MP4, WebM, MOV और अधिक के साथ काम करता है।

आपकी वीडियो फ़ाइल आपके डिवाइस पर रहती है

यहाँ वीडियो फ़ाइल छोड़ें या ब्राउज़ करने के लिए क्लिक करें

MP4, WebM, MOV, OGG, AVI

वीडियो से वाक-से-पाठ वास्तव में क्या करता है

वीडियो ट्रांसक्राइब करने का मतलब रिकॉर्ड किए गए ऑडियो तरंगरूप को टेक्स्ट में बदलना है। एक स्पीच-टू-टेक्स्ट इंजन एक साथ तीन कार्य करता है: ध्वनिक मॉडलिंग (ध्वनि आवृत्तियों को ध्वनिग्राम पर मैप करना, किसी भाषा की सबसे छोटी ध्वनि इकाइयाँ), भाषा मॉडलिंग (तय करना कि कौन से ध्वनिग्राम अनुक्रम संभावित शब्द बनाते हैं और कौन से शब्द अनुक्रम चुनी हुई भाषा में संभावित वाक्य बनाते हैं), और विराम चिह्न/केसिंग (जहाँ उपयुक्त हो वहाँ कॉमा, पूर्णविराम डालना और कैपिटलाइज़ करना)। आधुनिक इंजन न्यूरल नेटवर्क का उपयोग करते हैं (दसियों हज़ार घंटों के लेबल किए गए भाषण पर प्रशिक्षित ध्वनिक मॉडल, अरबों शब्दों के टेक्स्ट पर प्रशिक्षित भाषा मॉडल)। परिणाम एक ट्रांसक्रिप्ट है जो लगभग वैसा है जैसा कोई इंसान लिखेगा, गुणवत्ता ऑडियो स्पष्टता, प्रशिक्षण डेटा से उच्चारण मेल और बोलने वाला कितने अस्पष्ट समानार्थी शब्दों का उपयोग करता है पर निर्भर करती है।

यह टूल ब्राउज़र की अंतर्निहित Web Speech API (विशेष रूप से SpeechRecognition इंटरफ़ेस) का उपयोग करता है, W3C मानक जो ऑपरेटिंग सिस्टम या ब्राउज़र विक्रेता के पहचान इंजन को उजागर करता है। Chrome और Edge पर API आमतौर पर प्रसंस्करण के लिए Google की क्लाउड स्पीच-टू-टेक्स्ट सेवा के माध्यम से ऑडियो रूट करता है (ऑडियो बाहर जाता है, ट्रांसक्रिप्शन वापस आता है); Firefox और Safari पर इंजन कुछ अलग गुणवत्ता विशेषताओं के साथ स्थानीय रूप से चलता है। ट्रांसक्रिप्शन आंशिक परिणामों (अधिक ऑडियो संसाधित होने पर अपडेट) और अंतिम परिणामों (लॉक किए गए ट्रांसक्राइब किए गए खंड) के अनुक्रम के रूप में वापस आता है। यह टूल ट्रांसक्रिप्शन के दौरान दोनों दिखाता है।

भाषा चयन बहुत मायने रखता है। अंग्रेज़ी के लिए ट्यून किया गया स्पीच-टू-टेक्स्ट इंजन फ्रेंच या मंदारिन ऑडियो को गलत ट्रांसक्राइब करेगा। ड्रॉपडाउन 20+ भाषा लोकेल (en-US, en-GB, es-ES, fr-FR, de-DE, ja-JP, zh-CN और अधिक) दिखाता है। सर्वोत्तम परिणामों के लिए उस लोकेल को चुनें जो आपके बोलने वाले की बोली से मेल खाता हो। क्लिप के बीच में भाषा परिवर्तन (कई भाषाओं वाला एकल वीडियो) आमतौर पर खराब परिणाम देता है क्योंकि इंजन पूरे सत्र के लिए एक ध्वनिक/भाषा मॉडल पर प्रतिबद्ध होता है।

यह टूल पर्दे के पीछे कैसे काम करता है

जब आप वीडियो ड्रॉप करते हैं, तो ब्राउज़र इसे URL.createObjectURL() के माध्यम से HTMLVideoElement में लोड करता है जो फ़ाइल को स्थानीय रखता है। प्लेबैक प्रारंभ में रुका हुआ है ताकि आप भाषा चुन सकें और प्रारंभ क्लिक कर सकें।

प्रारंभ क्लिक करने पर, टूल new SpeechRecognition() (या legacy Chrome पर webkitSpeechRecognition) कॉल करता है, recognition.continuous = true और recognition.interimResults = true सेट करता है, भाषा को आपके चयनित लोकेल पर सेट करता है, और recognition.start() कॉल करता है, साथ ही वीडियो चलाता है जिसका ऑडियो ब्राउज़र की ऑडियो इनपुट पाइपलाइन में रूट होता है। पहचान इंजन ऑडियो को टुकड़ों में खाता है और ट्रांसक्राइब करते समय result इवेंट उत्सर्जित करता है।

प्रत्येक result इवेंट विश्वास द्वारा क्रमबद्ध विकल्पों की एक सरणी ले जाता है। टूल हर अंतिम परिणाम के लिए शीर्ष विकल्प लेता है और इसे संपादन योग्य ट्रांसक्रिप्ट बॉक्स में जोड़ता है। मध्यवर्ती परिणाम (अभी भी परिष्कृत हो रहे) हल्के टेक्स्ट में दिखाई देते हैं। जब वीडियो समाप्त होता है या आप रोकें क्लिक करते हैं, तो recognition.stop() सत्र को समाप्त करता है। निर्यात विकल्प ट्रांसक्रिप्ट को सादे टेक्स्ट (.txt) के रूप में या सिंथेटिक टाइमस्टैम्प के साथ SRT/VTT उपशीर्षक के रूप में लिखते हैं, सभी मेमोरी में निर्मित और blob डाउनलोड के माध्यम से प्रस्तुत।

वाक् पहचान का संक्षिप्त इतिहास

Audrey, 1952।Bell Labs ने Audrey बनाया, पहला स्वचालित वाक् पहचान सिस्टम, एकल प्रशिक्षित वक्ता द्वारा बोले गए एकल अंकों को पहचानने में सक्षम। «शब्दावली» 0 से 9 थी; विभिन्न वक्ताओं के साथ सटीकता तेज़ी से घटती थी।
DRAGON डिक्टेशन, 1990 का दशक।Dragon Systems ने उपभोक्ताओं के लिए Dragon Dictate (1990) और Dragon NaturallySpeaking (1997) जारी किया, उपयोगकर्ता की आवाज़ पर प्रशिक्षण के बाद लगभग 80 से 95% सटीकता के साथ निरंतर डिक्टेशन की अनुमति दी। एकल वक्ताओं और शांत वातावरण तक सीमित।
Google Voice Search, 2008।Google ने iPhone पर वॉइस सर्च लॉन्च किया, फिर हर जगह। अरबों वॉइस क्वेरीज़ पर प्रशिक्षित क्लाउड-आधारित पहचान बिना प्रति-उपयोगकर्ता प्रशिक्षण के वक्ता-स्वतंत्र पहचान को व्यावहारिक बनाती है। «OK Google» और «Hey Siri» का युग शुरू होता है।
गहन सीखने की क्रांति, 2012।Hinton और अन्य ने सफल पेपर प्रकाशित किए जो दिखाते हैं कि गहन न्यूरल नेटवर्क ध्वनिक मॉडलिंग के लिए पारंपरिक हिडन मार्कोव मॉडल दृष्टिकोणों से नाटकीय रूप से बेहतर प्रदर्शन करते हैं। शब्द त्रुटि दरें कुछ वर्षों में 25 से 30% से 10% से नीचे गिर जाती हैं।
Web Speech API अनुमोदित, 2014 से 2025।W3C Web Speech API स्पेक प्रकाशित करता है, ब्राउज़र-विक्रेता वाक् पहचान को JavaScript के लिए उजागर करता है। Chrome पहले API शिप करता है, उसके बाद Edge, Safari और Firefox। कार्यान्वयन गुणवत्ता और गोपनीयता रुख (क्लाउड बनाम स्थानीय प्रसंस्करण) में भिन्न होते हैं।
Whisper और ओपन-सोर्स ASR, 2022 से 2026।OpenAI ने Whisper (2022) जारी किया, एक ओपन-सोर्स 1.5-बिलियन-पैरामीटर स्वचालित वाक् पहचान मॉडल जो 680,000 घंटों के बहुभाषी डेटा पर प्रशिक्षित है। WebGPU 2024 से 2026 में whisper.cpp WASM पोर्ट के साथ Whisper को ब्राउज़र में लाता है, क्लाउड कॉल के बिना पूरी तरह से स्थानीय उच्च-गुणवत्ता वाली ट्रांसक्रिप्शन प्रदान करता है।

यह कैसे काम करता है

वीडियो अपलोड करें: अपने डिवाइस से वीडियो फ़ाइल चुनें या वीडियो URL पेस्ट करें।
भाषा चुनें: बेहतर ट्रांसक्रिप्शन सटीकता के लिए वीडियो में बोली जाने वाली भाषा चुनें।
ट्रांसक्राइब करें: ऑडियो ट्रैक निकाला जाता है और स्पीच रिकॉग्निशन इंजन द्वारा ट्रांसक्रिप्शन उत्पन्न करने के लिए प्रसंस्कृत होता है।
संपादित और निर्यात करें: ट्रांसक्रिप्शन की समीक्षा और सुधार करें, फिर इसे कॉपी करें या .txt या उपशीर्षक फ़ाइल में डाउनलोड करें।

वीडियो → टेक्स्ट क्यों इस्तेमाल करें?

वीडियो को टेक्स्ट में ट्रांसक्राइब करने से सुगम्यता (बधिर और कम सुनने वाले के लिए उपशीर्षक), SEO (खोजयोग्य सामग्री) में सुधार होता है।

आउटपुट प्रारूप

सादा टेक्स्ट (.txt): दस्तावेज़ों और ब्लॉग पोस्ट के लिए साफ़ ट्रांसक्रिप्शन
SRT उपशीर्षक (.srt): वीडियो प्लेयर के लिए समय-चिह्नित उपशीर्षक फ़ाइल
VTT उपशीर्षक (.vtt): HTML5 वीडियो ट्रैक के लिए WebVTT प्रारूप
गोपनीयता पहले: सभी प्रसंस्करण आपके डिवाइस पर रहता है

वास्तविक दुनिया के ट्रांसक्रिप्शन वर्कफ़्लो

पहुँच के लिए उपशीर्षक।सोशल मीडिया वीडियो, प्रशिक्षण सामग्री या वेबिनार रिकॉर्डिंग में कैप्शन जोड़ना बधिर और कम सुनने वाले दर्शकों का समर्थन करता है और सार्वजनिक सामग्री के लिए ADA/WCAG अनुपालन आवश्यकताओं को पूरा करता है। ट्रांसक्रिप्ट को SRT या VTT के रूप में निर्यात करें, फिर वीडियो फ़ाइल के साथ अधिकांश आधुनिक प्लेयर (YouTube, Vimeo, यहाँ तक कि कस्टम HTML5 प्लेयर) पर अपलोड करें।
वीडियो को ब्लॉग पोस्ट में पुन: प्रयोजित करना।ट्रांसक्राइब किया गया 30 मिनट का साक्षात्कार, पॉडकास्ट या वेबिनार आपको 3,000 से 5,000 शब्द स्रोत सामग्री देता है। हल्का संपादन करें, शीर्षक और थीसिस जोड़ें, और आपके पास एक ब्लॉग पोस्ट या LinkedIn लेख है। ट्रांसक्रिप्ट SEO में भी मदद करता है क्योंकि खोज इंजन उस पाठ्य सामग्री को अनुक्रमित कर सकते हैं जो अन्यथा वीडियो में बंद है।
खोजने योग्य अभिलेखागार।रिकॉर्ड की गई बैठकें, व्याख्यान या प्रशिक्षण सत्र ट्रांसक्राइब होने पर खोजने योग्य हो जाते हैं। आप घंटों के वीडियो में स्क्रब करने के बजाय सेकंडों में «वह भाग जहाँ हमने मूल्य निर्धारण पर चर्चा की» पा सकते हैं। ट्रांसक्रिप्ट को दस्तावेज़ फ़ोल्डर या ज्ञान आधार में वीडियो के साथ सहेजें।
मार्केटिंग के लिए उद्धरण निकालना।वीडियो में शूट किए गए ग्राहक प्रशंसापत्र और विशेषज्ञ साक्षात्कारों से उद्धरण योग्य पंक्तियों के लिए खनन किया जा सकता है। ट्रांसक्रिप्शन सटीक शब्दों को सामने लाता है; तब आप एक उद्धरण कार्ड या सोशल पोस्ट डिज़ाइन कर सकते हैं जो संदर्भ के लिए वीडियो को संदर्भित करता है। उस एक अच्छे वाक्य को खोजने के लिए फिर से देखने से तेज़।
भाषा सीखने में सहायता।जेनरेट किए गए ट्रांसक्रिप्ट के साथ विदेशी भाषा का वीडियो देखना सीखने वालों को उन शब्दों को पकड़ने में मदद करता है जो वे चूक गए। ट्रांसक्रिप्शन की सटीकता सही नहीं है, लेकिन जिन शब्दों को आप सही ढंग से सुनते हैं वे उन शब्दों को लंगर डालने में मदद करते हैं जिन्हें इंजन ने गलत समझा। कम सामान्य भाषाओं के छात्रों के लिए, ट्रांसक्रिप्ट निर्यात Anki जैसे फ्लैशकार्ड टूल में फीड किए जा सकते हैं।
रिकॉर्डिंग से बैठक नोट्स।रिकॉर्ड की गई Zoom, Teams या व्यक्तिगत बैठकों को अनुवर्ती नोट्स के लिए ट्रांसक्राइब किया जा सकता है। एक्शन आइटम, निर्णय और अनुवर्ती प्रतिबद्धताओं को निकालने के लिए ट्रांसक्रिप्ट संपादित करें। बैठक के दौरान नोट्स लेने से आसान और बाद में मेमोरी पर निर्भर रहने से अधिक सटीक।

सामान्य खामियाँ और उनका क्या मतलब है

उच्चारण और बोली बेमेल सटीकता को नुकसान पहुँचाता है।मुख्य रूप से US अंग्रेज़ी पर प्रशिक्षित स्पीच इंजन भारतीय अंग्रेज़ी, स्कॉटिश अंग्रेज़ी, या गैर-देशी वक्ताओं पर अधिक त्रुटियाँ उत्पन्न करेगा। लोकेल ड्रॉपडाउन आपको en-GB बनाम en-US चुनने देता है, लेकिन मज़बूत क्षेत्रीय उच्चारणों का कवरेज असमान है। तटस्थ या प्रशिक्षण-डेटा-मिलान उच्चारणों वाले वक्ता अधिक सटीक रूप से ट्रांसक्राइब होते हैं।
पृष्ठभूमि शोर तेज़ी से गुणवत्ता को कम करता है।कैफ़े वातावरण, यातायात, पंखे, संवाद के पीछे संगीत: हर एक त्रुटियाँ जोड़ता है। इंजन वैसे आवाज़ों को शोर से अलग नहीं कर सकता जैसे कोई केंद्रित मानव कर सकता है। स्वच्छ स्रोत ऑडियो (अच्छा माइक्रोफ़ोन, न्यूनतम पृष्ठभूमि) सर्वोत्तम परिणाम देता है। शोरगुल फ़ुटेज के लिए, 10 से 25% शब्द त्रुटि दर की अपेक्षा करें।
कई वक्ता एक-दूसरे के ऊपर बात करते हैं।Web Speech API वक्ता डायराइज़ेशन (कौन ने क्या कहा अलग करना) नहीं करता। दो-व्यक्ति साक्षात्कार जहाँ वक्ता ओवरलैप नहीं होते एक प्रवाहित ट्रांसक्रिप्ट के रूप में स्वीकार्य रूप से ट्रांसक्राइब होते हैं। तीन-तरफ़ा पैनल या विवादास्पद बहसें एक उलझन उत्पन्न करती हैं। सटीक मल्टी-स्पीकर ट्रांसक्रिप्ट के लिए, Whisper या Otter जैसी डायराइज़ेशन शामिल भुगतान सेवा का उपयोग करें।
समानार्थी शब्द अनुमान लगाए जाते हैं।«उनका» बनाम «वहाँ» बनाम «वे हैं», «को» बनाम «भी» बनाम «दो», उचित संज्ञाएँ बनाम सामान्य शब्द: इंजन संदर्भ से अनुमान लगाता है। अक्सर अच्छी तरह अनुमान लगाता है। कभी-कभी यह गलत समानार्थी शब्द चुनता है और आपके ट्रांसक्रिप्ट को प्रूफरीडिंग की आवश्यकता होती है। प्रकाशन से पहले हमेशा ट्रांसक्रिप्ट की समीक्षा और संपादन करें; कच्ची मशीन आउटपुट न भेजें।
तकनीकी शब्दजाल और उचित संज्ञाएँ इंजनों को भ्रमित करती हैं।डोमेन-विशिष्ट शब्द (चिकित्सा, कानूनी, वैज्ञानिक, ब्रांड नाम, चरित्र नाम) अक्सर खराब ट्रांसक्राइब होते हैं क्योंकि वे प्रशिक्षण डेटा में अच्छी तरह प्रतिनिधित्व नहीं किए गए थे। विशेष शब्दावली को मैन्युअल रूप से ठीक करने की अपेक्षा करें। व्यवस्थित गलत-ट्रांसक्रिप्शन के लिए खोजें-और-बदलें आपका मित्र है।
लंबे वीडियो पहचान सत्र सीमाओं से टकराते हैं।Web Speech API व्यक्तिगत सत्रों को ब्राउज़र के आधार पर 5 से 15 मिनट तक सीमित करता है। लंबे वीडियो के लिए, टूल समय-समय पर पहचान सत्र को फिर से शुरू करता है (एक संक्षिप्त अंतर के साथ), जो हर पुनरारंभ पर एक या दो शब्द छोड़ सकता है। एक घंटे लंबे वीडियो के लिए, माइक्रो-गैप्स की एक मुट्ठी की अपेक्षा करें; ट्रांसक्रिप्ट की सावधानीपूर्वक समीक्षा करें।

गोपनीयता: सूक्ष्म

यह टूल इस साइट के अन्य टूल्स की तुलना में अधिक सूक्ष्म है, इसलिए गोपनीयता चित्र स्पष्ट ध्यान का हकदार है। वीडियो फ़ाइल स्वयं कभी आपके डिवाइस को नहीं छोड़ती: यह ब्राउज़र में स्थानीय blob URL के रूप में लोड होती है, स्थानीय रूप से चलती है, और कभी अपलोड नहीं की जाती। यहाँ तक तो ठीक है। लेकिन Web Speech API ब्राउज़रों में अलग-अलग तरीके से कार्यान्वित होती है। 2026 में Chrome और Edge पर, API आमतौर पर ट्रांसक्रिप्शन प्रसंस्करण के लिए Google की क्लाउड स्पीच-टू-टेक्स्ट सेवा को डिकोडेड ऑडियो भेजती है; ऑडियो परिवहन में एन्क्रिप्ट किया जाता है और Google की नीति के अनुसार विज्ञापन या प्रशिक्षण के लिए उपयोग नहीं किया जाता, लेकिन यह संक्षेप में आपके डिवाइस को छोड़ देता है। Firefox और Safari पर पहचान आमतौर पर ऑडियो डिवाइस को छोड़े बिना स्थानीय रूप से चलती है, थोड़ी कम सटीकता पर। टूल नियंत्रित नहीं कर सकता कि ब्राउज़र कौन सा पथ लेता है; यह ब्राउज़र-स्तरीय निर्णय है।

संवेदनशील सामग्री पर सत्यापित-स्थानीय ट्रांसक्रिप्शन के लिए, दो विकल्प। पहला, इन-ब्राउज़र स्थानीय पहचान के लिए Firefox या Safari का उपयोग करें (कम गुणवत्ता लेकिन पूरी तरह से स्थानीय)। दूसरा, एक Whisper-आधारित डेस्कटॉप या WebGPU टूल का उपयोग करें जो OpenAI के ओपन-सोर्स मॉडल को स्थानीय रूप से चलाता है; whisper.cpp, MacWhisper, और 2026 तक ब्राउज़र-आधारित Whisper पोर्ट की बढ़ती संख्या क्लाउड कॉल के बिना पूरी तरह से स्थानीय उच्च-गुणवत्ता वाली ट्रांसक्रिप्शन प्रदान करती है। नियमित गैर-संवेदनशील वीडियो (सार्वजनिक व्याख्यान, आकस्मिक सामग्री) के लिए, इस टूल का Chrome/Edge क्लाउड-सहायता प्राप्त पथ सुविधाजनक और उच्च-गुणवत्ता वाला है।

जब दूसरा टूल सही विकल्प हो

पूरी तरह से स्थानीय प्रसंस्करण की आवश्यकता वाली संवेदनशील सामग्री।यदि आप जो ऑडियो ट्रांसक्राइब कर रहे हैं उसमें वकील-ग्राहक विशेषाधिकार वाली सामग्री, चिकित्सा जानकारी, आंतरिक कंपनी रणनीति या अन्य सामग्री है जो किसी भी परिस्थिति में आपके डिवाइस को नहीं छोड़नी चाहिए, तो क्लाउड-रूटिंग ब्राउज़र में Web Speech API के बजाय Whisper-आधारित स्थानीय टूल (MacWhisper, whisper.cpp, आदि) का उपयोग करें।
डायराइज़ेशन की आवश्यकता वाली मल्टी-स्पीकर बातचीत।स्पीकर लेबल («Alice:», «Bob:») को डायराइज़ेशन की आवश्यकता होती है, जो Web Speech API प्रदान नहीं करती। Otter.ai, Rev, Descript या pyannote डायराइज़ेशन के साथ Whisper-आधारित टूल का उपयोग करें। पॉडकास्ट, साक्षात्कार, गवाही के लिए प्रति-मिनट लागत के लायक।
तकनीकी सामग्री पर अधिकतम सटीकता।चिकित्सा, कानूनी या वैज्ञानिक डोमेन के लिए ट्यून किए गए विशेष स्पीच इंजन (Nuance Dragon Medical, Lexile, Verbit) शब्दजाल पर बहुत कम त्रुटि दर रखते हैं। मिशन-क्रिटिकल ट्रांसक्रिप्शन के लिए जहाँ त्रुटियों की लागत पैसा है, भुगतान विशेष सेवाएँ मुफ़्त सामान्य-प्रयोजन टूल को हरा देती हैं।
बहुत लंबी सामग्री (घंटे)।बहु-घंटे ट्रांसक्रिप्शन (पूरे सम्मेलन, दिन भर की बैठकें, कानूनी कार्यवाही) के लिए, भुगतान सेवा पर बैच अपलोड ब्राउज़र सत्र सीमाओं और तदर्थ पुनरारंभ पर भरोसा करने से अधिक विश्वसनीय है। Otter, Rev, Trint, Descript सभी इस टूल को मिलने वाले सत्र विरामों के बिना घंटे+ सामग्री को संभालते हैं।

अन्य अक्सर पूछे जाने वाले प्रश्न

कौन सा ब्राउज़र सबसे अच्छा ट्रांसक्रिप्शन देता है?

Chrome और Edge में आमतौर पर उच्चतम सटीकता होती है क्योंकि वे Google के क्लाउड स्पीच इंजन का उपयोग करते हैं, जो सबसे बड़े डेटासेट पर प्रशिक्षित है और नियमित रूप से अद्यतित होता है। ट्रेड-ऑफ यह है कि ऑडियो संक्षेप में आपके डिवाइस को छोड़ता है। Firefox कुछ भाषाओं के लिए स्थानीय पहचान का उपयोग करता है, थोड़ी कम सटीकता के साथ लेकिन पूर्ण स्थानीयता। Safari का कार्यान्वयन 2025 तक सुधरा है लेकिन ऐतिहासिक रूप से सीमित भाषा कवरेज था। गैर-संवेदनशील सामग्री पर सुविधा और सटीकता के लिए, Chrome। सत्यापन योग्य स्थानीयता के लिए, Firefox या स्थानीय Whisper।

ट्रांसक्रिप्ट कभी-कभी पुनरारंभ क्यों होता है या इसमें अंतराल क्यों होते हैं?

Web Speech API व्यक्तिगत पहचान सत्रों को ब्राउज़र के आधार पर 5 से 15 मिनट तक सीमित करता है। लंबे वीडियो के लिए, टूल पारदर्शी रूप से पृष्ठभूमि में सत्र को पुनरारंभ करता है। प्रत्येक पुनरारंभ एक संक्षिप्त अंतराल (एक सेकंड से कम) पेश करता है जिसके दौरान एक या दो शब्द छूट सकते हैं। लंबे वीडियो के लिए, इन माइक्रो-गैप्स की एक मुट्ठी की अपेक्षा करें और भरने या सही करने के लिए ट्रांसक्रिप्ट की सावधानीपूर्वक समीक्षा करें।

क्या मैं SRT या VTT उपशीर्षक उत्पन्न कर सकता हूँ?

हाँ। .srt या .vtt प्रारूप चुनने के लिए डाउनलोड ड्रॉपडाउन का उपयोग करें। टूल शब्द गणना और औसत बोलने की दर (प्रति मिनट लगभग 150 शब्द) के आधार पर सिंथेटिक टाइमस्टैम्प उत्पन्न करता है। फ़्रेम-सटीक उपशीर्षक समय के लिए, बाद में SRT को Subtitle Edit या Aegisub जैसे टूल से चलाएँ, जहाँ आप कान से प्रति-लाइन समय ट्वीक कर सकते हैं। या Whisper-आधारित टूल का उपयोग करें जो मूल रूप से सटीक टाइमस्टैम्प प्रदान करता है।

मुझे किस शब्द त्रुटि दर की अपेक्षा करनी चाहिए?

Chrome पर बिना पृष्ठभूमि शोर के स्पष्ट एकल-वक्ता अंग्रेज़ी ऑडियो के लिए, 3 से 8% शब्द त्रुटि दर की अपेक्षा करें (इसलिए 1000-शब्द ट्रांसक्रिप्ट में 30 से 80 गलत या लापता शब्द होते हैं)। शोरगुल ऑडियो या गैर-देशी वक्ताओं के लिए, 10 से 25%। मल्टी-स्पीकर उलझी हुई बातचीत के लिए, 25%+। प्रकाशन से पहले हमेशा प्रूफरीडिंग करें; कच्चे ट्रांसक्रिप्ट को कभी भी अंतिम सामग्री के रूप में न भेजें।

क्या डेस्कटॉप या कमांड-लाइन समतुल्य है?

हाँ। OpenAI Whisper (ओपन-सोर्स मॉडल और CLI) ऑफ़लाइन ट्रांसक्रिप्शन के लिए वास्तविक मानक है: whisper input.mp4 --language en --output_format srt। MacWhisper, BuzzWhisper और Whisper Notes इसे मित्रवत UI के साथ लपेटते हैं। whisper.cpp एक तेज़ C++ कार्यान्वयन प्रदान करता है। Google Speech-to-Text, AWS Transcribe और Deepgram जैसे क्लाउड APIs उच्च-स्तरीय इंजनों तक प्रति-मिनट भुगतान पहुँच प्रदान करते हैं। अधिकतम गुणवत्ता वाले स्थानीय प्रसंस्करण के लिए, Whisper उत्तर है।

क्या इंजन कोड-स्विचिंग (कई भाषाएँ) संभाल सकता है?

ख़राब। Web Speech API प्रति सत्र एक भाषा लोकेल पर प्रतिबद्ध होता है। यदि आपका वक्ता अंग्रेज़ी और स्पेनिश मिलाता है, en-US चुनना अंग्रेज़ी को सही ढंग से ट्रांसक्राइब करता है और स्पेनिश को बिगाड़ देता है (और इसके विपरीत)। बहुभाषी या कोड-स्विच्ड ऑडियो के लिए, Whisper large-v3 एक एकल पास में कई भाषाओं को संभालता है और प्रति खंड भाषा का पता लगाता है; यह वर्तमान में कोड-स्विचिंग सामग्री के लिए सबसे अच्छा विकल्प है।