मुफ़्त वीडियो से टेक्स्ट ट्रांसक्रिप्शन
ब्राउज़र भाषण पहचान के माध्यम से एक वीडियो फ़ाइल से भाषण को टेक्स्ट में ट्रांसक्राइब करें। MP4, WebM, MOV और अधिक के साथ काम करता है।
MP4, WebM, MOV, OGG, AVI
नोट: स्पीच रिकॉग्निशन गुणवत्ता आपके ब्राउज़र और ऑडियो स्पष्टता पर निर्भर करती है। Chrome और Edge सर्वोत्तम परिणाम देते हैं।
वीडियो से वाक-से-पाठ वास्तव में क्या करता है
वीडियो ट्रांसक्राइब करने का मतलब रिकॉर्ड किए गए ऑडियो तरंगरूप को टेक्स्ट में बदलना है। एक स्पीच-टू-टेक्स्ट इंजन एक साथ तीन कार्य करता है: ध्वनिक मॉडलिंग (ध्वनि आवृत्तियों को ध्वनिग्राम पर मैप करना, किसी भाषा की सबसे छोटी ध्वनि इकाइयाँ), भाषा मॉडलिंग (तय करना कि कौन से ध्वनिग्राम अनुक्रम संभावित शब्द बनाते हैं और कौन से शब्द अनुक्रम चुनी हुई भाषा में संभावित वाक्य बनाते हैं), और विराम चिह्न/केसिंग (जहाँ उपयुक्त हो वहाँ कॉमा, पूर्णविराम डालना और कैपिटलाइज़ करना)। आधुनिक इंजन न्यूरल नेटवर्क का उपयोग करते हैं (दसियों हज़ार घंटों के लेबल किए गए भाषण पर प्रशिक्षित ध्वनिक मॉडल, अरबों शब्दों के टेक्स्ट पर प्रशिक्षित भाषा मॉडल)। परिणाम एक ट्रांसक्रिप्ट है जो लगभग वैसा है जैसा कोई इंसान लिखेगा, गुणवत्ता ऑडियो स्पष्टता, प्रशिक्षण डेटा से उच्चारण मेल और बोलने वाला कितने अस्पष्ट समानार्थी शब्दों का उपयोग करता है पर निर्भर करती है।
यह टूल ब्राउज़र की अंतर्निहित Web Speech API (विशेष रूप से SpeechRecognition इंटरफ़ेस) का उपयोग करता है, W3C मानक जो ऑपरेटिंग सिस्टम या ब्राउज़र विक्रेता के पहचान इंजन को उजागर करता है। Chrome और Edge पर API आमतौर पर प्रसंस्करण के लिए Google की क्लाउड स्पीच-टू-टेक्स्ट सेवा के माध्यम से ऑडियो रूट करता है (ऑडियो बाहर जाता है, ट्रांसक्रिप्शन वापस आता है); Firefox और Safari पर इंजन कुछ अलग गुणवत्ता विशेषताओं के साथ स्थानीय रूप से चलता है। ट्रांसक्रिप्शन आंशिक परिणामों (अधिक ऑडियो संसाधित होने पर अपडेट) और अंतिम परिणामों (लॉक किए गए ट्रांसक्राइब किए गए खंड) के अनुक्रम के रूप में वापस आता है। यह टूल ट्रांसक्रिप्शन के दौरान दोनों दिखाता है।
भाषा चयन बहुत मायने रखता है। अंग्रेज़ी के लिए ट्यून किया गया स्पीच-टू-टेक्स्ट इंजन फ्रेंच या मंदारिन ऑडियो को गलत ट्रांसक्राइब करेगा। ड्रॉपडाउन 20+ भाषा लोकेल (en-US, en-GB, es-ES, fr-FR, de-DE, ja-JP, zh-CN और अधिक) दिखाता है। सर्वोत्तम परिणामों के लिए उस लोकेल को चुनें जो आपके बोलने वाले की बोली से मेल खाता हो। क्लिप के बीच में भाषा परिवर्तन (कई भाषाओं वाला एकल वीडियो) आमतौर पर खराब परिणाम देता है क्योंकि इंजन पूरे सत्र के लिए एक ध्वनिक/भाषा मॉडल पर प्रतिबद्ध होता है।
यह टूल पर्दे के पीछे कैसे काम करता है
जब आप वीडियो ड्रॉप करते हैं, तो ब्राउज़र इसे URL.createObjectURL() के माध्यम से HTMLVideoElement में लोड करता है जो फ़ाइल को स्थानीय रखता है। प्लेबैक प्रारंभ में रुका हुआ है ताकि आप भाषा चुन सकें और प्रारंभ क्लिक कर सकें।
प्रारंभ क्लिक करने पर, टूल new SpeechRecognition() (या legacy Chrome पर webkitSpeechRecognition) कॉल करता है, recognition.continuous = true और recognition.interimResults = true सेट करता है, भाषा को आपके चयनित लोकेल पर सेट करता है, और recognition.start() कॉल करता है, साथ ही वीडियो चलाता है जिसका ऑडियो ब्राउज़र की ऑडियो इनपुट पाइपलाइन में रूट होता है। पहचान इंजन ऑडियो को टुकड़ों में खाता है और ट्रांसक्राइब करते समय result इवेंट उत्सर्जित करता है।
प्रत्येक result इवेंट विश्वास द्वारा क्रमबद्ध विकल्पों की एक सरणी ले जाता है। टूल हर अंतिम परिणाम के लिए शीर्ष विकल्प लेता है और इसे संपादन योग्य ट्रांसक्रिप्ट बॉक्स में जोड़ता है। मध्यवर्ती परिणाम (अभी भी परिष्कृत हो रहे) हल्के टेक्स्ट में दिखाई देते हैं। जब वीडियो समाप्त होता है या आप रोकें क्लिक करते हैं, तो recognition.stop() सत्र को समाप्त करता है। निर्यात विकल्प ट्रांसक्रिप्ट को सादे टेक्स्ट (.txt) के रूप में या सिंथेटिक टाइमस्टैम्प के साथ SRT/VTT उपशीर्षक के रूप में लिखते हैं, सभी मेमोरी में निर्मित और blob डाउनलोड के माध्यम से प्रस्तुत।
वाक् पहचान का संक्षिप्त इतिहास
- Audrey, 1952।Bell Labs ने Audrey बनाया, पहला स्वचालित वाक् पहचान सिस्टम, एकल प्रशिक्षित वक्ता द्वारा बोले गए एकल अंकों को पहचानने में सक्षम। «शब्दावली» 0 से 9 थी; विभिन्न वक्ताओं के साथ सटीकता तेज़ी से घटती थी।
- DRAGON डिक्टेशन, 1990 का दशक।Dragon Systems ने उपभोक्ताओं के लिए Dragon Dictate (1990) और Dragon NaturallySpeaking (1997) जारी किया, उपयोगकर्ता की आवाज़ पर प्रशिक्षण के बाद लगभग 80 से 95% सटीकता के साथ निरंतर डिक्टेशन की अनुमति दी। एकल वक्ताओं और शांत वातावरण तक सीमित।
- Google Voice Search, 2008।Google ने iPhone पर वॉइस सर्च लॉन्च किया, फिर हर जगह। अरबों वॉइस क्वेरीज़ पर प्रशिक्षित क्लाउड-आधारित पहचान बिना प्रति-उपयोगकर्ता प्रशिक्षण के वक्ता-स्वतंत्र पहचान को व्यावहारिक बनाती है। «OK Google» और «Hey Siri» का युग शुरू होता है।
- गहन सीखने की क्रांति, 2012।Hinton और अन्य ने सफल पेपर प्रकाशित किए जो दिखाते हैं कि गहन न्यूरल नेटवर्क ध्वनिक मॉडलिंग के लिए पारंपरिक हिडन मार्कोव मॉडल दृष्टिकोणों से नाटकीय रूप से बेहतर प्रदर्शन करते हैं। शब्द त्रुटि दरें कुछ वर्षों में 25 से 30% से 10% से नीचे गिर जाती हैं।
- Web Speech API अनुमोदित, 2014 से 2025।W3C Web Speech API स्पेक प्रकाशित करता है, ब्राउज़र-विक्रेता वाक् पहचान को JavaScript के लिए उजागर करता है। Chrome पहले API शिप करता है, उसके बाद Edge, Safari और Firefox। कार्यान्वयन गुणवत्ता और गोपनीयता रुख (क्लाउड बनाम स्थानीय प्रसंस्करण) में भिन्न होते हैं।
- Whisper और ओपन-सोर्स ASR, 2022 से 2026।OpenAI ने Whisper (2022) जारी किया, एक ओपन-सोर्स 1.5-बिलियन-पैरामीटर स्वचालित वाक् पहचान मॉडल जो 680,000 घंटों के बहुभाषी डेटा पर प्रशिक्षित है। WebGPU 2024 से 2026 में whisper.cpp WASM पोर्ट के साथ Whisper को ब्राउज़र में लाता है, क्लाउड कॉल के बिना पूरी तरह से स्थानीय उच्च-गुणवत्ता वाली ट्रांसक्रिप्शन प्रदान करता है।
यह कैसे काम करता है
- वीडियो अपलोड करें: अपने डिवाइस से वीडियो फ़ाइल चुनें या वीडियो URL पेस्ट करें।
- भाषा चुनें: बेहतर ट्रांसक्रिप्शन सटीकता के लिए वीडियो में बोली जाने वाली भाषा चुनें।
- ट्रांसक्राइब करें: ऑडियो ट्रैक निकाला जाता है और स्पीच रिकॉग्निशन इंजन द्वारा ट्रांसक्रिप्शन उत्पन्न करने के लिए प्रसंस्कृत होता है।
- संपादित और निर्यात करें: ट्रांसक्रिप्शन की समीक्षा और सुधार करें, फिर इसे कॉपी करें या .txt या उपशीर्षक फ़ाइल में डाउनलोड करें।
वीडियो → टेक्स्ट क्यों इस्तेमाल करें?
वीडियो को टेक्स्ट में ट्रांसक्राइब करने से सुगम्यता (बधिर और कम सुनने वाले के लिए उपशीर्षक), SEO (खोजयोग्य सामग्री) में सुधार होता है।
आउटपुट प्रारूप
- सादा टेक्स्ट (.txt): दस्तावेज़ों और ब्लॉग पोस्ट के लिए साफ़ ट्रांसक्रिप्शन
- SRT उपशीर्षक (.srt): वीडियो प्लेयर के लिए समय-चिह्नित उपशीर्षक फ़ाइल
- VTT उपशीर्षक (.vtt): HTML5 वीडियो ट्रैक के लिए WebVTT प्रारूप
- गोपनीयता पहले: सभी प्रसंस्करण आपके डिवाइस पर रहता है
वास्तविक दुनिया के ट्रांसक्रिप्शन वर्कफ़्लो
- पहुँच के लिए उपशीर्षक।सोशल मीडिया वीडियो, प्रशिक्षण सामग्री या वेबिनार रिकॉर्डिंग में कैप्शन जोड़ना बधिर और कम सुनने वाले दर्शकों का समर्थन करता है और सार्वजनिक सामग्री के लिए ADA/WCAG अनुपालन आवश्यकताओं को पूरा करता है। ट्रांसक्रिप्ट को SRT या VTT के रूप में निर्यात करें, फिर वीडियो फ़ाइल के साथ अधिकांश आधुनिक प्लेयर (YouTube, Vimeo, यहाँ तक कि कस्टम HTML5 प्लेयर) पर अपलोड करें।
- वीडियो को ब्लॉग पोस्ट में पुन: प्रयोजित करना।ट्रांसक्राइब किया गया 30 मिनट का साक्षात्कार, पॉडकास्ट या वेबिनार आपको 3,000 से 5,000 शब्द स्रोत सामग्री देता है। हल्का संपादन करें, शीर्षक और थीसिस जोड़ें, और आपके पास एक ब्लॉग पोस्ट या LinkedIn लेख है। ट्रांसक्रिप्ट SEO में भी मदद करता है क्योंकि खोज इंजन उस पाठ्य सामग्री को अनुक्रमित कर सकते हैं जो अन्यथा वीडियो में बंद है।
- खोजने योग्य अभिलेखागार।रिकॉर्ड की गई बैठकें, व्याख्यान या प्रशिक्षण सत्र ट्रांसक्राइब होने पर खोजने योग्य हो जाते हैं। आप घंटों के वीडियो में स्क्रब करने के बजाय सेकंडों में «वह भाग जहाँ हमने मूल्य निर्धारण पर चर्चा की» पा सकते हैं। ट्रांसक्रिप्ट को दस्तावेज़ फ़ोल्डर या ज्ञान आधार में वीडियो के साथ सहेजें।
- मार्केटिंग के लिए उद्धरण निकालना।वीडियो में शूट किए गए ग्राहक प्रशंसापत्र और विशेषज्ञ साक्षात्कारों से उद्धरण योग्य पंक्तियों के लिए खनन किया जा सकता है। ट्रांसक्रिप्शन सटीक शब्दों को सामने लाता है; तब आप एक उद्धरण कार्ड या सोशल पोस्ट डिज़ाइन कर सकते हैं जो संदर्भ के लिए वीडियो को संदर्भित करता है। उस एक अच्छे वाक्य को खोजने के लिए फिर से देखने से तेज़।
- भाषा सीखने में सहायता।जेनरेट किए गए ट्रांसक्रिप्ट के साथ विदेशी भाषा का वीडियो देखना सीखने वालों को उन शब्दों को पकड़ने में मदद करता है जो वे चूक गए। ट्रांसक्रिप्शन की सटीकता सही नहीं है, लेकिन जिन शब्दों को आप सही ढंग से सुनते हैं वे उन शब्दों को लंगर डालने में मदद करते हैं जिन्हें इंजन ने गलत समझा। कम सामान्य भाषाओं के छात्रों के लिए, ट्रांसक्रिप्ट निर्यात Anki जैसे फ्लैशकार्ड टूल में फीड किए जा सकते हैं।
- रिकॉर्डिंग से बैठक नोट्स।रिकॉर्ड की गई Zoom, Teams या व्यक्तिगत बैठकों को अनुवर्ती नोट्स के लिए ट्रांसक्राइब किया जा सकता है। एक्शन आइटम, निर्णय और अनुवर्ती प्रतिबद्धताओं को निकालने के लिए ट्रांसक्रिप्ट संपादित करें। बैठक के दौरान नोट्स लेने से आसान और बाद में मेमोरी पर निर्भर रहने से अधिक सटीक।
सामान्य खामियाँ और उनका क्या मतलब है
- उच्चारण और बोली बेमेल सटीकता को नुकसान पहुँचाता है।मुख्य रूप से US अंग्रेज़ी पर प्रशिक्षित स्पीच इंजन भारतीय अंग्रेज़ी, स्कॉटिश अंग्रेज़ी, या गैर-देशी वक्ताओं पर अधिक त्रुटियाँ उत्पन्न करेगा। लोकेल ड्रॉपडाउन आपको en-GB बनाम en-US चुनने देता है, लेकिन मज़बूत क्षेत्रीय उच्चारणों का कवरेज असमान है। तटस्थ या प्रशिक्षण-डेटा-मिलान उच्चारणों वाले वक्ता अधिक सटीक रूप से ट्रांसक्राइब होते हैं।
- पृष्ठभूमि शोर तेज़ी से गुणवत्ता को कम करता है।कैफ़े वातावरण, यातायात, पंखे, संवाद के पीछे संगीत: हर एक त्रुटियाँ जोड़ता है। इंजन वैसे आवाज़ों को शोर से अलग नहीं कर सकता जैसे कोई केंद्रित मानव कर सकता है। स्वच्छ स्रोत ऑडियो (अच्छा माइक्रोफ़ोन, न्यूनतम पृष्ठभूमि) सर्वोत्तम परिणाम देता है। शोरगुल फ़ुटेज के लिए, 10 से 25% शब्द त्रुटि दर की अपेक्षा करें।
- कई वक्ता एक-दूसरे के ऊपर बात करते हैं।Web Speech API वक्ता डायराइज़ेशन (कौन ने क्या कहा अलग करना) नहीं करता। दो-व्यक्ति साक्षात्कार जहाँ वक्ता ओवरलैप नहीं होते एक प्रवाहित ट्रांसक्रिप्ट के रूप में स्वीकार्य रूप से ट्रांसक्राइब होते हैं। तीन-तरफ़ा पैनल या विवादास्पद बहसें एक उलझन उत्पन्न करती हैं। सटीक मल्टी-स्पीकर ट्रांसक्रिप्ट के लिए, Whisper या Otter जैसी डायराइज़ेशन शामिल भुगतान सेवा का उपयोग करें।
- समानार्थी शब्द अनुमान लगाए जाते हैं।«उनका» बनाम «वहाँ» बनाम «वे हैं», «को» बनाम «भी» बनाम «दो», उचित संज्ञाएँ बनाम सामान्य शब्द: इंजन संदर्भ से अनुमान लगाता है। अक्सर अच्छी तरह अनुमान लगाता है। कभी-कभी यह गलत समानार्थी शब्द चुनता है और आपके ट्रांसक्रिप्ट को प्रूफरीडिंग की आवश्यकता होती है। प्रकाशन से पहले हमेशा ट्रांसक्रिप्ट की समीक्षा और संपादन करें; कच्ची मशीन आउटपुट न भेजें।
- तकनीकी शब्दजाल और उचित संज्ञाएँ इंजनों को भ्रमित करती हैं।डोमेन-विशिष्ट शब्द (चिकित्सा, कानूनी, वैज्ञानिक, ब्रांड नाम, चरित्र नाम) अक्सर खराब ट्रांसक्राइब होते हैं क्योंकि वे प्रशिक्षण डेटा में अच्छी तरह प्रतिनिधित्व नहीं किए गए थे। विशेष शब्दावली को मैन्युअल रूप से ठीक करने की अपेक्षा करें। व्यवस्थित गलत-ट्रांसक्रिप्शन के लिए खोजें-और-बदलें आपका मित्र है।
- लंबे वीडियो पहचान सत्र सीमाओं से टकराते हैं।Web Speech API व्यक्तिगत सत्रों को ब्राउज़र के आधार पर 5 से 15 मिनट तक सीमित करता है। लंबे वीडियो के लिए, टूल समय-समय पर पहचान सत्र को फिर से शुरू करता है (एक संक्षिप्त अंतर के साथ), जो हर पुनरारंभ पर एक या दो शब्द छोड़ सकता है। एक घंटे लंबे वीडियो के लिए, माइक्रो-गैप्स की एक मुट्ठी की अपेक्षा करें; ट्रांसक्रिप्ट की सावधानीपूर्वक समीक्षा करें।
गोपनीयता: सूक्ष्म
यह टूल इस साइट के अन्य टूल्स की तुलना में अधिक सूक्ष्म है, इसलिए गोपनीयता चित्र स्पष्ट ध्यान का हकदार है। वीडियो फ़ाइल स्वयं कभी आपके डिवाइस को नहीं छोड़ती: यह ब्राउज़र में स्थानीय blob URL के रूप में लोड होती है, स्थानीय रूप से चलती है, और कभी अपलोड नहीं की जाती। यहाँ तक तो ठीक है। लेकिन Web Speech API ब्राउज़रों में अलग-अलग तरीके से कार्यान्वित होती है। 2026 में Chrome और Edge पर, API आमतौर पर ट्रांसक्रिप्शन प्रसंस्करण के लिए Google की क्लाउड स्पीच-टू-टेक्स्ट सेवा को डिकोडेड ऑडियो भेजती है; ऑडियो परिवहन में एन्क्रिप्ट किया जाता है और Google की नीति के अनुसार विज्ञापन या प्रशिक्षण के लिए उपयोग नहीं किया जाता, लेकिन यह संक्षेप में आपके डिवाइस को छोड़ देता है। Firefox और Safari पर पहचान आमतौर पर ऑडियो डिवाइस को छोड़े बिना स्थानीय रूप से चलती है, थोड़ी कम सटीकता पर। टूल नियंत्रित नहीं कर सकता कि ब्राउज़र कौन सा पथ लेता है; यह ब्राउज़र-स्तरीय निर्णय है।
संवेदनशील सामग्री पर सत्यापित-स्थानीय ट्रांसक्रिप्शन के लिए, दो विकल्प। पहला, इन-ब्राउज़र स्थानीय पहचान के लिए Firefox या Safari का उपयोग करें (कम गुणवत्ता लेकिन पूरी तरह से स्थानीय)। दूसरा, एक Whisper-आधारित डेस्कटॉप या WebGPU टूल का उपयोग करें जो OpenAI के ओपन-सोर्स मॉडल को स्थानीय रूप से चलाता है; whisper.cpp, MacWhisper, और 2026 तक ब्राउज़र-आधारित Whisper पोर्ट की बढ़ती संख्या क्लाउड कॉल के बिना पूरी तरह से स्थानीय उच्च-गुणवत्ता वाली ट्रांसक्रिप्शन प्रदान करती है। नियमित गैर-संवेदनशील वीडियो (सार्वजनिक व्याख्यान, आकस्मिक सामग्री) के लिए, इस टूल का Chrome/Edge क्लाउड-सहायता प्राप्त पथ सुविधाजनक और उच्च-गुणवत्ता वाला है।
जब दूसरा टूल सही विकल्प हो
- पूरी तरह से स्थानीय प्रसंस्करण की आवश्यकता वाली संवेदनशील सामग्री।यदि आप जो ऑडियो ट्रांसक्राइब कर रहे हैं उसमें वकील-ग्राहक विशेषाधिकार वाली सामग्री, चिकित्सा जानकारी, आंतरिक कंपनी रणनीति या अन्य सामग्री है जो किसी भी परिस्थिति में आपके डिवाइस को नहीं छोड़नी चाहिए, तो क्लाउड-रूटिंग ब्राउज़र में Web Speech API के बजाय Whisper-आधारित स्थानीय टूल (MacWhisper, whisper.cpp, आदि) का उपयोग करें।
- डायराइज़ेशन की आवश्यकता वाली मल्टी-स्पीकर बातचीत।स्पीकर लेबल («Alice:», «Bob:») को डायराइज़ेशन की आवश्यकता होती है, जो Web Speech API प्रदान नहीं करती। Otter.ai, Rev, Descript या pyannote डायराइज़ेशन के साथ Whisper-आधारित टूल का उपयोग करें। पॉडकास्ट, साक्षात्कार, गवाही के लिए प्रति-मिनट लागत के लायक।
- तकनीकी सामग्री पर अधिकतम सटीकता।चिकित्सा, कानूनी या वैज्ञानिक डोमेन के लिए ट्यून किए गए विशेष स्पीच इंजन (Nuance Dragon Medical, Lexile, Verbit) शब्दजाल पर बहुत कम त्रुटि दर रखते हैं। मिशन-क्रिटिकल ट्रांसक्रिप्शन के लिए जहाँ त्रुटियों की लागत पैसा है, भुगतान विशेष सेवाएँ मुफ़्त सामान्य-प्रयोजन टूल को हरा देती हैं।
- बहुत लंबी सामग्री (घंटे)।बहु-घंटे ट्रांसक्रिप्शन (पूरे सम्मेलन, दिन भर की बैठकें, कानूनी कार्यवाही) के लिए, भुगतान सेवा पर बैच अपलोड ब्राउज़र सत्र सीमाओं और तदर्थ पुनरारंभ पर भरोसा करने से अधिक विश्वसनीय है। Otter, Rev, Trint, Descript सभी इस टूल को मिलने वाले सत्र विरामों के बिना घंटे+ सामग्री को संभालते हैं।
अन्य अक्सर पूछे जाने वाले प्रश्न
कौन सा ब्राउज़र सबसे अच्छा ट्रांसक्रिप्शन देता है?
Chrome और Edge में आमतौर पर उच्चतम सटीकता होती है क्योंकि वे Google के क्लाउड स्पीच इंजन का उपयोग करते हैं, जो सबसे बड़े डेटासेट पर प्रशिक्षित है और नियमित रूप से अद्यतित होता है। ट्रेड-ऑफ यह है कि ऑडियो संक्षेप में आपके डिवाइस को छोड़ता है। Firefox कुछ भाषाओं के लिए स्थानीय पहचान का उपयोग करता है, थोड़ी कम सटीकता के साथ लेकिन पूर्ण स्थानीयता। Safari का कार्यान्वयन 2025 तक सुधरा है लेकिन ऐतिहासिक रूप से सीमित भाषा कवरेज था। गैर-संवेदनशील सामग्री पर सुविधा और सटीकता के लिए, Chrome। सत्यापन योग्य स्थानीयता के लिए, Firefox या स्थानीय Whisper।
ट्रांसक्रिप्ट कभी-कभी पुनरारंभ क्यों होता है या इसमें अंतराल क्यों होते हैं?
Web Speech API व्यक्तिगत पहचान सत्रों को ब्राउज़र के आधार पर 5 से 15 मिनट तक सीमित करता है। लंबे वीडियो के लिए, टूल पारदर्शी रूप से पृष्ठभूमि में सत्र को पुनरारंभ करता है। प्रत्येक पुनरारंभ एक संक्षिप्त अंतराल (एक सेकंड से कम) पेश करता है जिसके दौरान एक या दो शब्द छूट सकते हैं। लंबे वीडियो के लिए, इन माइक्रो-गैप्स की एक मुट्ठी की अपेक्षा करें और भरने या सही करने के लिए ट्रांसक्रिप्ट की सावधानीपूर्वक समीक्षा करें।
क्या मैं SRT या VTT उपशीर्षक उत्पन्न कर सकता हूँ?
हाँ। .srt या .vtt प्रारूप चुनने के लिए डाउनलोड ड्रॉपडाउन का उपयोग करें। टूल शब्द गणना और औसत बोलने की दर (प्रति मिनट लगभग 150 शब्द) के आधार पर सिंथेटिक टाइमस्टैम्प उत्पन्न करता है। फ़्रेम-सटीक उपशीर्षक समय के लिए, बाद में SRT को Subtitle Edit या Aegisub जैसे टूल से चलाएँ, जहाँ आप कान से प्रति-लाइन समय ट्वीक कर सकते हैं। या Whisper-आधारित टूल का उपयोग करें जो मूल रूप से सटीक टाइमस्टैम्प प्रदान करता है।
मुझे किस शब्द त्रुटि दर की अपेक्षा करनी चाहिए?
Chrome पर बिना पृष्ठभूमि शोर के स्पष्ट एकल-वक्ता अंग्रेज़ी ऑडियो के लिए, 3 से 8% शब्द त्रुटि दर की अपेक्षा करें (इसलिए 1000-शब्द ट्रांसक्रिप्ट में 30 से 80 गलत या लापता शब्द होते हैं)। शोरगुल ऑडियो या गैर-देशी वक्ताओं के लिए, 10 से 25%। मल्टी-स्पीकर उलझी हुई बातचीत के लिए, 25%+। प्रकाशन से पहले हमेशा प्रूफरीडिंग करें; कच्चे ट्रांसक्रिप्ट को कभी भी अंतिम सामग्री के रूप में न भेजें।
क्या डेस्कटॉप या कमांड-लाइन समतुल्य है?
हाँ। OpenAI Whisper (ओपन-सोर्स मॉडल और CLI) ऑफ़लाइन ट्रांसक्रिप्शन के लिए वास्तविक मानक है: whisper input.mp4 --language en --output_format srt। MacWhisper, BuzzWhisper और Whisper Notes इसे मित्रवत UI के साथ लपेटते हैं। whisper.cpp एक तेज़ C++ कार्यान्वयन प्रदान करता है। Google Speech-to-Text, AWS Transcribe और Deepgram जैसे क्लाउड APIs उच्च-स्तरीय इंजनों तक प्रति-मिनट भुगतान पहुँच प्रदान करते हैं। अधिकतम गुणवत्ता वाले स्थानीय प्रसंस्करण के लिए, Whisper उत्तर है।
क्या इंजन कोड-स्विचिंग (कई भाषाएँ) संभाल सकता है?
ख़राब। Web Speech API प्रति सत्र एक भाषा लोकेल पर प्रतिबद्ध होता है। यदि आपका वक्ता अंग्रेज़ी और स्पेनिश मिलाता है, en-US चुनना अंग्रेज़ी को सही ढंग से ट्रांसक्राइब करता है और स्पेनिश को बिगाड़ देता है (और इसके विपरीत)। बहुभाषी या कोड-स्विच्ड ऑडियो के लिए, Whisper large-v3 एक एकल पास में कई भाषाओं को संभालता है और प्रति खंड भाषा का पता लगाता है; यह वर्तमान में कोड-स्विचिंग सामग्री के लिए सबसे अच्छा विकल्प है।