मुफ़्त वीडियो से टेक्स्ट ट्रांसक्रिप्शन

ब्राउज़र भाषण पहचान के माध्यम से एक वीडियो फ़ाइल से भाषण को टेक्स्ट में ट्रांसक्राइब करें। MP4, WebM, MOV और अधिक के साथ काम करता है।

आपकी वीडियो फ़ाइल आपके डिवाइस पर रहती है
यहाँ वीडियो फ़ाइल छोड़ें या ब्राउज़ करने के लिए क्लिक करें

MP4, WebM, MOV, OGG, AVI

वीडियो से वाक-से-पाठ वास्तव में क्या करता है

वीडियो ट्रांसक्राइब करने का मतलब रिकॉर्ड किए गए ऑडियो तरंगरूप को टेक्स्ट में बदलना है। एक स्पीच-टू-टेक्स्ट इंजन एक साथ तीन कार्य करता है: ध्वनिक मॉडलिंग (ध्वनि आवृत्तियों को ध्वनिग्राम पर मैप करना, किसी भाषा की सबसे छोटी ध्वनि इकाइयाँ), भाषा मॉडलिंग (तय करना कि कौन से ध्वनिग्राम अनुक्रम संभावित शब्द बनाते हैं और कौन से शब्द अनुक्रम चुनी हुई भाषा में संभावित वाक्य बनाते हैं), और विराम चिह्न/केसिंग (जहाँ उपयुक्त हो वहाँ कॉमा, पूर्णविराम डालना और कैपिटलाइज़ करना)। आधुनिक इंजन न्यूरल नेटवर्क का उपयोग करते हैं (दसियों हज़ार घंटों के लेबल किए गए भाषण पर प्रशिक्षित ध्वनिक मॉडल, अरबों शब्दों के टेक्स्ट पर प्रशिक्षित भाषा मॉडल)। परिणाम एक ट्रांसक्रिप्ट है जो लगभग वैसा है जैसा कोई इंसान लिखेगा, गुणवत्ता ऑडियो स्पष्टता, प्रशिक्षण डेटा से उच्चारण मेल और बोलने वाला कितने अस्पष्ट समानार्थी शब्दों का उपयोग करता है पर निर्भर करती है।

यह टूल ब्राउज़र की अंतर्निहित Web Speech API (विशेष रूप से SpeechRecognition इंटरफ़ेस) का उपयोग करता है, W3C मानक जो ऑपरेटिंग सिस्टम या ब्राउज़र विक्रेता के पहचान इंजन को उजागर करता है। Chrome और Edge पर API आमतौर पर प्रसंस्करण के लिए Google की क्लाउड स्पीच-टू-टेक्स्ट सेवा के माध्यम से ऑडियो रूट करता है (ऑडियो बाहर जाता है, ट्रांसक्रिप्शन वापस आता है); Firefox और Safari पर इंजन कुछ अलग गुणवत्ता विशेषताओं के साथ स्थानीय रूप से चलता है। ट्रांसक्रिप्शन आंशिक परिणामों (अधिक ऑडियो संसाधित होने पर अपडेट) और अंतिम परिणामों (लॉक किए गए ट्रांसक्राइब किए गए खंड) के अनुक्रम के रूप में वापस आता है। यह टूल ट्रांसक्रिप्शन के दौरान दोनों दिखाता है।

भाषा चयन बहुत मायने रखता है। अंग्रेज़ी के लिए ट्यून किया गया स्पीच-टू-टेक्स्ट इंजन फ्रेंच या मंदारिन ऑडियो को गलत ट्रांसक्राइब करेगा। ड्रॉपडाउन 20+ भाषा लोकेल (en-US, en-GB, es-ES, fr-FR, de-DE, ja-JP, zh-CN और अधिक) दिखाता है। सर्वोत्तम परिणामों के लिए उस लोकेल को चुनें जो आपके बोलने वाले की बोली से मेल खाता हो। क्लिप के बीच में भाषा परिवर्तन (कई भाषाओं वाला एकल वीडियो) आमतौर पर खराब परिणाम देता है क्योंकि इंजन पूरे सत्र के लिए एक ध्वनिक/भाषा मॉडल पर प्रतिबद्ध होता है।

यह टूल पर्दे के पीछे कैसे काम करता है

जब आप वीडियो ड्रॉप करते हैं, तो ब्राउज़र इसे URL.createObjectURL() के माध्यम से HTMLVideoElement में लोड करता है जो फ़ाइल को स्थानीय रखता है। प्लेबैक प्रारंभ में रुका हुआ है ताकि आप भाषा चुन सकें और प्रारंभ क्लिक कर सकें।

प्रारंभ क्लिक करने पर, टूल new SpeechRecognition() (या legacy Chrome पर webkitSpeechRecognition) कॉल करता है, recognition.continuous = true और recognition.interimResults = true सेट करता है, भाषा को आपके चयनित लोकेल पर सेट करता है, और recognition.start() कॉल करता है, साथ ही वीडियो चलाता है जिसका ऑडियो ब्राउज़र की ऑडियो इनपुट पाइपलाइन में रूट होता है। पहचान इंजन ऑडियो को टुकड़ों में खाता है और ट्रांसक्राइब करते समय result इवेंट उत्सर्जित करता है।

प्रत्येक result इवेंट विश्वास द्वारा क्रमबद्ध विकल्पों की एक सरणी ले जाता है। टूल हर अंतिम परिणाम के लिए शीर्ष विकल्प लेता है और इसे संपादन योग्य ट्रांसक्रिप्ट बॉक्स में जोड़ता है। मध्यवर्ती परिणाम (अभी भी परिष्कृत हो रहे) हल्के टेक्स्ट में दिखाई देते हैं। जब वीडियो समाप्त होता है या आप रोकें क्लिक करते हैं, तो recognition.stop() सत्र को समाप्त करता है। निर्यात विकल्प ट्रांसक्रिप्ट को सादे टेक्स्ट (.txt) के रूप में या सिंथेटिक टाइमस्टैम्प के साथ SRT/VTT उपशीर्षक के रूप में लिखते हैं, सभी मेमोरी में निर्मित और blob डाउनलोड के माध्यम से प्रस्तुत।

वाक् पहचान का संक्षिप्त इतिहास

यह कैसे काम करता है

  1. वीडियो अपलोड करें: अपने डिवाइस से वीडियो फ़ाइल चुनें या वीडियो URL पेस्ट करें।
  2. भाषा चुनें: बेहतर ट्रांसक्रिप्शन सटीकता के लिए वीडियो में बोली जाने वाली भाषा चुनें।
  3. ट्रांसक्राइब करें: ऑडियो ट्रैक निकाला जाता है और स्पीच रिकॉग्निशन इंजन द्वारा ट्रांसक्रिप्शन उत्पन्न करने के लिए प्रसंस्कृत होता है।
  4. संपादित और निर्यात करें: ट्रांसक्रिप्शन की समीक्षा और सुधार करें, फिर इसे कॉपी करें या .txt या उपशीर्षक फ़ाइल में डाउनलोड करें।

वीडियो → टेक्स्ट क्यों इस्तेमाल करें?

वीडियो को टेक्स्ट में ट्रांसक्राइब करने से सुगम्यता (बधिर और कम सुनने वाले के लिए उपशीर्षक), SEO (खोजयोग्य सामग्री) में सुधार होता है।

आउटपुट प्रारूप

वास्तविक दुनिया के ट्रांसक्रिप्शन वर्कफ़्लो

सामान्य खामियाँ और उनका क्या मतलब है

गोपनीयता: सूक्ष्म

यह टूल इस साइट के अन्य टूल्स की तुलना में अधिक सूक्ष्म है, इसलिए गोपनीयता चित्र स्पष्ट ध्यान का हकदार है। वीडियो फ़ाइल स्वयं कभी आपके डिवाइस को नहीं छोड़ती: यह ब्राउज़र में स्थानीय blob URL के रूप में लोड होती है, स्थानीय रूप से चलती है, और कभी अपलोड नहीं की जाती। यहाँ तक तो ठीक है। लेकिन Web Speech API ब्राउज़रों में अलग-अलग तरीके से कार्यान्वित होती है। 2026 में Chrome और Edge पर, API आमतौर पर ट्रांसक्रिप्शन प्रसंस्करण के लिए Google की क्लाउड स्पीच-टू-टेक्स्ट सेवा को डिकोडेड ऑडियो भेजती है; ऑडियो परिवहन में एन्क्रिप्ट किया जाता है और Google की नीति के अनुसार विज्ञापन या प्रशिक्षण के लिए उपयोग नहीं किया जाता, लेकिन यह संक्षेप में आपके डिवाइस को छोड़ देता है। Firefox और Safari पर पहचान आमतौर पर ऑडियो डिवाइस को छोड़े बिना स्थानीय रूप से चलती है, थोड़ी कम सटीकता पर। टूल नियंत्रित नहीं कर सकता कि ब्राउज़र कौन सा पथ लेता है; यह ब्राउज़र-स्तरीय निर्णय है।

संवेदनशील सामग्री पर सत्यापित-स्थानीय ट्रांसक्रिप्शन के लिए, दो विकल्प। पहला, इन-ब्राउज़र स्थानीय पहचान के लिए Firefox या Safari का उपयोग करें (कम गुणवत्ता लेकिन पूरी तरह से स्थानीय)। दूसरा, एक Whisper-आधारित डेस्कटॉप या WebGPU टूल का उपयोग करें जो OpenAI के ओपन-सोर्स मॉडल को स्थानीय रूप से चलाता है; whisper.cpp, MacWhisper, और 2026 तक ब्राउज़र-आधारित Whisper पोर्ट की बढ़ती संख्या क्लाउड कॉल के बिना पूरी तरह से स्थानीय उच्च-गुणवत्ता वाली ट्रांसक्रिप्शन प्रदान करती है। नियमित गैर-संवेदनशील वीडियो (सार्वजनिक व्याख्यान, आकस्मिक सामग्री) के लिए, इस टूल का Chrome/Edge क्लाउड-सहायता प्राप्त पथ सुविधाजनक और उच्च-गुणवत्ता वाला है।

जब दूसरा टूल सही विकल्प हो

अन्य अक्सर पूछे जाने वाले प्रश्न

कौन सा ब्राउज़र सबसे अच्छा ट्रांसक्रिप्शन देता है?

Chrome और Edge में आमतौर पर उच्चतम सटीकता होती है क्योंकि वे Google के क्लाउड स्पीच इंजन का उपयोग करते हैं, जो सबसे बड़े डेटासेट पर प्रशिक्षित है और नियमित रूप से अद्यतित होता है। ट्रेड-ऑफ यह है कि ऑडियो संक्षेप में आपके डिवाइस को छोड़ता है। Firefox कुछ भाषाओं के लिए स्थानीय पहचान का उपयोग करता है, थोड़ी कम सटीकता के साथ लेकिन पूर्ण स्थानीयता। Safari का कार्यान्वयन 2025 तक सुधरा है लेकिन ऐतिहासिक रूप से सीमित भाषा कवरेज था। गैर-संवेदनशील सामग्री पर सुविधा और सटीकता के लिए, Chrome। सत्यापन योग्य स्थानीयता के लिए, Firefox या स्थानीय Whisper।

ट्रांसक्रिप्ट कभी-कभी पुनरारंभ क्यों होता है या इसमें अंतराल क्यों होते हैं?

Web Speech API व्यक्तिगत पहचान सत्रों को ब्राउज़र के आधार पर 5 से 15 मिनट तक सीमित करता है। लंबे वीडियो के लिए, टूल पारदर्शी रूप से पृष्ठभूमि में सत्र को पुनरारंभ करता है। प्रत्येक पुनरारंभ एक संक्षिप्त अंतराल (एक सेकंड से कम) पेश करता है जिसके दौरान एक या दो शब्द छूट सकते हैं। लंबे वीडियो के लिए, इन माइक्रो-गैप्स की एक मुट्ठी की अपेक्षा करें और भरने या सही करने के लिए ट्रांसक्रिप्ट की सावधानीपूर्वक समीक्षा करें।

क्या मैं SRT या VTT उपशीर्षक उत्पन्न कर सकता हूँ?

हाँ। .srt या .vtt प्रारूप चुनने के लिए डाउनलोड ड्रॉपडाउन का उपयोग करें। टूल शब्द गणना और औसत बोलने की दर (प्रति मिनट लगभग 150 शब्द) के आधार पर सिंथेटिक टाइमस्टैम्प उत्पन्न करता है। फ़्रेम-सटीक उपशीर्षक समय के लिए, बाद में SRT को Subtitle Edit या Aegisub जैसे टूल से चलाएँ, जहाँ आप कान से प्रति-लाइन समय ट्वीक कर सकते हैं। या Whisper-आधारित टूल का उपयोग करें जो मूल रूप से सटीक टाइमस्टैम्प प्रदान करता है।

मुझे किस शब्द त्रुटि दर की अपेक्षा करनी चाहिए?

Chrome पर बिना पृष्ठभूमि शोर के स्पष्ट एकल-वक्ता अंग्रेज़ी ऑडियो के लिए, 3 से 8% शब्द त्रुटि दर की अपेक्षा करें (इसलिए 1000-शब्द ट्रांसक्रिप्ट में 30 से 80 गलत या लापता शब्द होते हैं)। शोरगुल ऑडियो या गैर-देशी वक्ताओं के लिए, 10 से 25%। मल्टी-स्पीकर उलझी हुई बातचीत के लिए, 25%+। प्रकाशन से पहले हमेशा प्रूफरीडिंग करें; कच्चे ट्रांसक्रिप्ट को कभी भी अंतिम सामग्री के रूप में न भेजें।

क्या डेस्कटॉप या कमांड-लाइन समतुल्य है?

हाँ। OpenAI Whisper (ओपन-सोर्स मॉडल और CLI) ऑफ़लाइन ट्रांसक्रिप्शन के लिए वास्तविक मानक है: whisper input.mp4 --language en --output_format srt। MacWhisper, BuzzWhisper और Whisper Notes इसे मित्रवत UI के साथ लपेटते हैं। whisper.cpp एक तेज़ C++ कार्यान्वयन प्रदान करता है। Google Speech-to-Text, AWS Transcribe और Deepgram जैसे क्लाउड APIs उच्च-स्तरीय इंजनों तक प्रति-मिनट भुगतान पहुँच प्रदान करते हैं। अधिकतम गुणवत्ता वाले स्थानीय प्रसंस्करण के लिए, Whisper उत्तर है।

क्या इंजन कोड-स्विचिंग (कई भाषाएँ) संभाल सकता है?

ख़राब। Web Speech API प्रति सत्र एक भाषा लोकेल पर प्रतिबद्ध होता है। यदि आपका वक्ता अंग्रेज़ी और स्पेनिश मिलाता है, en-US चुनना अंग्रेज़ी को सही ढंग से ट्रांसक्राइब करता है और स्पेनिश को बिगाड़ देता है (और इसके विपरीत)। बहुभाषी या कोड-स्विच्ड ऑडियो के लिए, Whisper large-v3 एक एकल पास में कई भाषाओं को संभालता है और प्रति खंड भाषा का पता लगाता है; यह वर्तमान में कोड-स्विचिंग सामग्री के लिए सबसे अच्छा विकल्प है।

संबंधित टूल