PDF से टेक्स्ट कैसे निकालें
PDF से टेक्स्ट कॉपी करना आश्चर्यजनक रूप से निराशाजनक हो सकता है। फॉर्मेटिंग टूट जाती है, कॉलम मर्ज हो जाते हैं, और लाइन ब्रेक गलत स्थानों पर दिखाई देते हैं। एक समर्पित टेक्स्ट निष्कर्षण उपकरण PDF संरचना से कच्ची टेक्स्ट सामग्री खींचता है, आपको साफ सादा टेक्स्ट देता है जिसके साथ आप वास्तव में काम कर सकते हैं। ब्राउज़र-आधारित एक्सट्रैक्टर पूरा काम स्थानीय रूप से संभालता है, आपके दस्तावेज़ को सर्वर पर अपलोड किए बिना।
टेक्स्ट-आधारित बनाम स्कैन किए गए PDF
टेक्स्ट निकालने से पहले, यह समझना मददगार है कि आपके पास किस प्रकार का PDF है:
टेक्स्ट-आधारित PDF: Word दस्तावेज़ों, वेब पेजों या अन्य डिजिटल स्रोतों से बनाए गए। टेक्स्ट PDF के अंदर डेटा के रूप में संग्रहीत होता है। इन फ़ाइलों को देखते समय आप टेक्स्ट का चयन और हाइलाइट कर सकते हैं। टेक्स्ट निष्कर्षण इनके साथ पूरी तरह से काम करता है।
स्कैन किए गए PDF: एक भौतिक दस्तावेज़ को स्कैन करके बनाए गए। PDF में पृष्ठों की छवियाँ होती हैं, वास्तविक टेक्स्ट डेटा नहीं। आप इन फ़ाइलों में टेक्स्ट का चयन नहीं कर सकते। मानक टेक्स्ट निष्कर्षण खाली परिणाम देता है, आपको इसके बजाय OCR सॉफ़्टवेयर की आवश्यकता है।
हाइब्रिड PDF: कुछ PDF में डिजिटल टेक्स्ट और स्कैन की गई छवियों का मिश्रण होता है। एक्सट्रैक्टर टेक्स्ट भागों को कैप्चर करेगा लेकिन छवि-आधारित सामग्री को नहीं।
खोज योग्य स्कैन किए गए PDF: एक स्कैन किया गया PDF जिसे किसी ने OCR के माध्यम से चलाया है, जिसमें पृष्ठ छवियों के पीछे टेक्स्ट परत एम्बेड की गई है। टेक्स्ट निष्कर्षण इन पर काम करता है क्योंकि OCR टेक्स्ट PDF में संग्रहीत है। सटीकता OCR गुणवत्ता पर निर्भर करती है, स्कैन किए गए OCR टेक्स्ट में अक्सर गलत पहचाने गए वर्णों से टाइपो होते हैं।
PDF से टेक्स्ट कैसे निकालें
- अपना PDF अपलोड करें: फ़ाइल का चयन करें या इसे खींचें और छोड़ें। उपकरण किसी भी मानक PDF को स्वीकार करता है।
- टेक्स्ट निकालें: निकालने वाले बटन पर क्लिक करें। उपकरण सभी पृष्ठों को संसाधित करता है और कच्चा टेक्स्ट प्रदर्शित करता है।
- कॉपी या डाउनलोड करें: टेक्स्ट को अपने क्लिपबोर्ड पर कॉपी करें या इसे TXT फ़ाइल के रूप में डाउनलोड करें।
PDF टेक्स्ट निष्कर्षण का संक्षिप्त इतिहास
PDF को Adobe ने 1993 में एक जानबूझकर जटिल आंतरिक संरचना के साथ बनाया था। एक PDF टेक्स्ट को स्थापित ग्लिफ़ (वर्ण + पृष्ठ पर x/y निर्देशांक) के रूप में संग्रहीत करता है, न कि बहती गद्य के रूप में। पठनीय टेक्स्ट निकालने के लिए, एक उपकरण को इन ग्लिफ़ स्थितियों को पढ़ना होगा और शब्द सीमाओं, लाइन ब्रेक और पठन क्रम का अनुमान लगाकर पैराग्राफ का पुनर्निर्माण करना होगा।
पहला व्यापक रूप से उपयोग किया जाने वाला PDF टेक्स्ट एक्सट्रैक्टर pdftotext (1996) था, जो Derek Noonburg के ओपन-सोर्स xpdf प्रोजेक्ट का हिस्सा था। इसने एक सरल एल्गोरिथ्म का उपयोग किया: ग्लिफ़ को Y फिर X द्वारा क्रमबद्ध करें, लाइन से समूहित करें, लाइनों को ब्लॉक में समूहित करें। अधिकांश आधुनिक एक्सट्रैक्टर अभी भी इस दृष्टिकोण के परिष्कृत संस्करण का उपयोग करते हैं।
PDF.js (Mozilla, 2011) ने प्लगइन के बिना ब्राउज़र में PDF रेंडरिंग लाई। इसने एक टेक्स्ट-निष्कर्षण API भी उजागर किया जो आज इस सहित अधिकांश ब्राउज़र-आधारित एक्सट्रैक्टर को शक्ति प्रदान करता है। PDF.js हर PDF विशेषता को पढ़ सकता है जो ब्राउज़र को चाहिए: टेक्स्ट, छवियाँ, फॉर्म, एनोटेशन, हस्ताक्षर, एम्बेडेड फॉन्ट।
वर्षों में मुख्य सुधार रहे हैं:
- बेहतर कॉलम पहचान: व्यापक मार्जिन वाले एकल-कॉलम से दो-कॉलम लेआउट को अलग करना
- यूनिकोड सामान्यीकरण: संयुक्ताक्षरों (fi, fl), उच्चारण वाले वर्णों, RTL लिपियों को संभालना
- तालिका जागरूकता: सारणीबद्ध लेआउट का पता लगाना और कॉलम संरचना को संरक्षित करना
- फॉन्ट-जागरूक रिक्ति: यह अनुमान लगाने के लिए फॉन्ट मेट्रिक्स का उपयोग करना कि शब्द कहाँ शुरू और समाप्त होते हैं
आधुनिक निष्कर्षण गद्य दस्तावेज़ों (पुस्तकें, लेख, अनुबंध) के लिए अच्छा है। यह अभी भी बहु-कॉलम वैज्ञानिक पत्रों, जटिल तालिकाओं और भारी प्रारूपित ब्रोशर के साथ संघर्ष करता है।
टेक्स्ट निष्कर्षण कब उपयोगी है
- डेटा माइग्रेशन: PDF से सामग्री को स्प्रेडशीट, डेटाबेस, या अन्य सिस्टम में खींचना
- सामग्री संपादन: नया दस्तावेज़ बनाने से पहले शब्द संसाधक में संपादित करने के लिए टेक्स्ट निकालना
- खोज और विश्लेषण: खोजने, गिनने या संसाधित करने के लिए PDF सामग्री को सादे टेक्स्ट में परिवर्तित करना
- एक्सेसिबिलिटी: PDF सामग्री को उन स्वरूपों में उपलब्ध कराना जो स्क्रीन रीडर के साथ बेहतर काम करते हैं
- संग्रहण: महत्वपूर्ण दस्तावेज़ों के टेक्स्ट बैकअप बनाना
- LLM इनपुट: सारांश या विश्लेषण के लिए PDF टेक्स्ट को ChatGPT, Claude, या स्थानीय LLM में फीड करना
- अनुवाद: टेक्स्ट निकालना ताकि एक अनुवादक अपने CAT टूल में काम कर सके
- उद्धरण निष्कर्षण: उद्धरण के लिए कानूनी अनुबंधों या शोध पत्रों से विशिष्ट अंश निकालना
- उद्धरण प्रबंधन: Zotero या Mendeley के लिए PDF पत्रों से संदर्भ सूची निकालना
- अनुपालन और डिस्कवरी: कानूनी eDiscovery वर्कफ़्लो में कीवर्ड खोज के लिए टेक्स्ट निकालना
- उपशीर्षक जनरेशन: PDF शैक्षिक सामग्री से ट्रांसक्रिप्ट निकालना
- अनुक्रमण: निकाले गए टेक्स्ट को स्थानीय खोज सिस्टम (Elasticsearch, Meilisearch) में फीड करना
आउटपुट प्रारूप विकल्प
अलग-अलग उपयोगों को अलग-अलग आउटपुट प्रारूपों की आवश्यकता होती है:
| प्रारूप | के लिए सर्वश्रेष्ठ | सीमाएँ |
|---|---|---|
| सादा टेक्स्ट (.txt) | सार्वभौमिक, कोई फॉर्मेटिंग नहीं | शीर्षक, सूचियाँ, तालिकाएँ खो देता है |
| Markdown (.md) | संरचित दस्तावेज़, शीर्षक संरक्षित | तालिकाओं को मैन्युअल सुधार की आवश्यकता हो सकती है |
| HTML | वेब प्रदर्शन, बोल्ड/इटैलिक संरक्षित | .txt से अधिक जटिल |
| Word (.docx) | Microsoft Word में संपादन | कुछ PDF-विशिष्ट फॉर्मेटिंग खो देता है |
| JSON | प्रति-पृष्ठ या प्रति-ब्लॉक निष्कर्षण | डेवलपर्स के लिए, सीधे पढ़ने के लिए नहीं |
| XML/EPUB | ई-पुस्तक रूपांतरण | जटिल सेटअप |
अधिकांश दैनिक निष्कर्षण के लिए (एक पैराग्राफ की प्रतिलिपि बनाना, LLM को टेक्स्ट फीड करना), सादा टेक्स्ट सही विकल्प है। लंबे दस्तावेज़ों के लिए जिन्हें आप पुनः संपादित करने का इरादा रखते हैं, PDF से Word आमतौर पर बेहतर है।
सामान्य चूक
- बहु-कॉलम लेआउट में गलत पठन क्रम: एक दो-कॉलम अकादमिक पेपर पहले बाएँ कॉलम और फिर दाएँ कॉलम (सही) को निकाल सकता है या उन्हें लाइन से इंटरलीव कर सकता है (अव्यवस्थित)। पठन क्रम सत्यापित करें, विशेष रूप से अकादमिक PDF के लिए।
- शरीर के टेक्स्ट में हेडर और फूटर: पृष्ठ संख्या, चलने वाले हेडर और फूटर प्रत्येक पृष्ठ पर टेक्स्ट के रूप में निकाले जाते हैं, प्रवाह को तोड़ते हैं। दोहराए गए टेक्स्ट की खोज करके उन्हें हटा दें।
- संयुक्ताक्षर और विशेष वर्ण: एकल ग्लिफ़ के रूप में संग्रहीत «fi» PDF के आधार पर एकल वर्ण या «fi» के रूप में निकाल सकता है। पुराने PDF इसके लिए बदतर हैं।
- लाइन ब्रेक पर हाइफनेशन: एक लाइन के अंत में हाइफन से टूटा शब्द (
compre-/hensive) हाइफन और न्यूलाइन के साथ निकलता है। आपको मैन्युअल रूप से ठीक करने या स्क्रिप्ट का उपयोग करने की आवश्यकता हो सकती है। - तालिकाएँ खंडित: PDF संरचनात्मक रूप से तालिकाओं को संग्रहीत नहीं करते हैं; निष्कर्षण आमतौर पर पंक्ति/कॉलम संरचना के बिना सेल टेक्स्ट की एक सपाट सूची तैयार करता है।
- OCR टेक्स्ट गुणवत्ता: स्कैन किए गए PDF के पीछे टेक्स्ट परतों में अक्सर OCR त्रुटियाँ होती हैं (
rnकोmके रूप में पढ़ा जाता है,clकोdके रूप में पढ़ा जाता है)। आउटपुट पर निर्भर होने से पहले स्पॉट-चेक करें। - एन्कोडिंग मोजीबेक: एक PDF जो गैर-मानक फॉन्ट एन्कोडिंग का उपयोग करता है, अव्यवस्थित निकाल सकता है। यह देखने के लिए Adobe Reader में PDF खोलने और कॉपी-पेस्ट करने का प्रयास करें कि क्या इसमें समान समस्या है।
- संदर्भ के बाहर निकाले गए फॉर्म फील्ड: भरने योग्य PDF फॉर्म में फील्ड लेबल और मान होते हैं जो निकालने पर अव्यवस्थित दिखाई दे सकते हैं।
- एनोटेशन और टिप्पणियाँ: PDF एनोटेशन में टेक्स्ट पृष्ठ सामग्री से अलग है। कुछ एक्सट्रैक्टर उन्हें शामिल करते हैं, कुछ नहीं।
- दाएँ-से-बाएँ टेक्स्ट: अरबी, हिब्रू, फारसी टेक्स्ट बाएँ-से-दाएँ निकाल सकते हैं या तार्किक क्रम के बजाय दृश्य क्रम में वर्णों के साथ।
- ऊर्ध्वाधर टेक्स्ट: जापानी/चीनी tategaki (ऊर्ध्वाधर लेखन) PDF गलत क्रम में वर्णों के साथ निकाल सकते हैं।
- वॉटरमार्क: वॉटरमार्क (गोपनीय, ड्राफ्ट) निकाले गए टेक्स्ट का हिस्सा बन जाते हैं, हर पृष्ठ पर दोहराए जाते हैं।
वैकल्पिक दृष्टिकोण
यदि ब्राउज़र-आधारित निष्कर्षण आपके PDF के लिए काम नहीं करता है:
- स्कैन किए गए PDF के लिए OCR: Tesseract (ओपन-सोर्स), Adobe Acrobat Pro, Google Drive (अपलोड करता है और OCR चलाता है), या ABBYY FineReader जैसी वाणिज्यिक सेवाएं।
- कमांड-लाइन उपकरण:
pdftotext(xpdf/poppler),pdfminer.six(Python),pdfplumber(Python, तालिका-जागरूक),pdf-parse(Node.js)। - Adobe Acrobat Pro: निर्यात के रूप में > टेक्स्ट या Word, आम तौर पर सटीक लेकिन कुछ वर्कफ़्लो में क्लाउड सेवाओं का उपयोग करता है।
- PDF से Word उसके बाद टेक्स्ट के रूप में सहेजें: आपको Word फॉर्मेटिंग प्लस टेक्स्ट देता है।
- टेक्स्ट फ़ाइल पर प्रिंट करें: कुछ दर्शक केवल-टेक्स्ट आउटपुट पर «प्रिंट» कर सकते हैं, अजीब लेआउट के लिए उपयोगी।
- LLM-आधारित निष्कर्षण: ChatGPT/Claude अपलोड किए गए PDF से टेक्स्ट निकाल सकता है और यहाँ तक कि तालिकाओं को पुनः फॉर्मेट कर सकता है; एक-शॉट के लिए उपयोगी, लेकिन धीमा और अपलोड आकार से सीमित।
गोपनीय PDF के लिए जो आपकी मशीन को नहीं छोड़ना चाहिए, ब्राउज़र-आधारित निष्कर्षण (यह उपकरण) या स्थानीय कमांड-लाइन उपकरण (pdftotext) ही एकमात्र सुरक्षित विकल्प हैं।
सुझाव
- जांचें कि क्या आपके PDF में चयन योग्य टेक्स्ट है: किसी भी व्यूअर में PDF खोलें और अपने कर्सर से टेक्स्ट को हाइलाइट करने का प्रयास करें। यदि आप इसे चुन सकते हैं, तो टेक्स्ट निष्कर्षण काम करेगा। यदि आप नहीं कर सकते, तो यह एक स्कैन किया गया दस्तावेज़ है।
- पैराग्राफ संरचना संरक्षित है: एक्सट्रैक्टर पैराग्राफ ब्रेक बनाए रखता है, इसलिए आउटपुट दस्तावेज़ के लेआउट का अनुसरण करता है। हालाँकि, कई कॉलम वाले जटिल लेआउट को मैन्युअल सफाई की आवश्यकता हो सकती है।
- बड़ी फ़ाइलें ठीक काम करती हैं: चूँकि प्रसंस्करण आपके ब्राउज़र में होता है, अपलोड आकार सीमा नहीं है। प्रदर्शन आपके डिवाइस पर निर्भर करता है, लेकिन सैकड़ों पृष्ठों वाले दस्तावेज़ बिना किसी समस्या के संभाले जाते हैं।
- फॉर्मेटिंग के लिए PDF से Word का उपयोग करें: यदि आपको केवल सादे टेक्स्ट के बजाय फॉर्मेटिंग (बोल्ड, शीर्षक, तालिकाएँ) को संरक्षित करने की आवश्यकता है, तो PDF से Word कनवर्टर का उपयोग करें।
- आउटपुट को साफ करने के लिए खोज और बदलें का उपयोग करें: सामान्य सफाई कार्य (पृष्ठ संख्या हटाना, हाइफनेटेड लाइन ब्रेक को जोड़ना, दोहराए गए हेडर हटाना) रेगेक्स खोज और बदलें के साथ आसान हैं।
- पहले से पृष्ठ संख्या और शीर्षक हटा दें: यदि स्रोत PDF में स्पष्ट पृष्ठ संख्याएँ हैं, तो प्रसंस्करण से पहले उन्हें हटाने से डाउनस्ट्रीम विश्लेषण तेज़ होता है।
- सारांश के लिए LLM के साथ संयोजित करें: टेक्स्ट निकालें, फिर «5 बुलेट्स में मुख्य बिंदुओं का सारांश दें» जैसे प्रॉम्प्ट के साथ ChatGPT या Claude में पेस्ट करें। शोध पत्रों और रिपोर्टों के लिए अच्छी तरह से काम करता है।
- तालिकाओं के लिए विशेष उपकरणों का उपयोग करें: यदि आपको केवल PDF से तालिकाओं की आवश्यकता है, तो सामान्य टेक्स्ट निष्कर्षण के बजाय Tabula या PDF से Excel जैसे उपकरण का उपयोग करें।
गोपनीयता और गोपनीय PDF
PDF टेक्स्ट एक्सट्रैक्टर पूरी तरह से आपके ब्राउज़र में चलता है। आप जो PDF अपलोड करते हैं, मध्यवर्ती प्रसंस्करण, और निकाला गया टेक्स्ट सभी आपके डिवाइस पर रहते हैं। कुछ भी सर्वर पर अपलोड नहीं किया जाता, लॉग नहीं किया जाता, या किसी के साथ साझा नहीं किया जाता।
यह महत्वपूर्ण है क्योंकि जिन PDF से आप टेक्स्ट निकालते हैं वे अक्सर बहुत संवेदनशील होते हैं: एम्बेडेड खंडों वाले अनुबंध जिन्हें आपको उद्धृत करने की आवश्यकता है, मेडिकल रिकॉर्ड और प्रयोगशाला रिपोर्ट, खाता संख्याओं वाले वित्तीय विवरण, वकील-क्लाइंट विशेषाधिकार के तहत कानूनी अभिलेख, रोज़गार प्रस्ताव पत्र और वेतन विवरण, आंतरिक कॉर्पोरेट दस्तावेज़, प्रकाशन से पहले प्रतिबंध के तहत शोध पत्र, स्कैन की गई आईडी और पासपोर्ट, आव्रजन दस्तावेज़। क्लाउड PDF एक्सट्रैक्टर डिज़ाइन से आपकी फ़ाइलों को अपने सर्वर पर अपलोड करते हैं, अक्सर «सेवा सुधार» के लिए उन्हें बनाए रखते हैं, और वास्तविक डेटा लीक में शामिल रहे हैं जहाँ गोपनीय अनुबंध और मेडिकल रिकॉर्ड खोज इंजन द्वारा अनुक्रमित हो गए। ब्राउज़र-आधारित एक्सट्रैक्टर में शून्य एक्सपोज़र है: PDF कभी आपकी मशीन नहीं छोड़ता।
ब्राउज़र-आधारित निष्कर्षण पृष्ठ लोड होने के बाद ऑफ़लाइन भी काम करता है, हवाई जहाज़ों पर, इंटरनेट एक्सेस के बिना सुरक्षित सुविधाओं में दस्तावेज़ों को संसाधित करने के लिए, या कहीं भी जहाँ आप किसी तृतीय पक्ष को गोपनीय दस्तावेज़ अपलोड नहीं कर सकते या नहीं करना चाहिए, उपयोगी।
अक्सर पूछे जाने वाले प्रश्न
मेरी PDF का निष्कर्षण खाली परिणाम क्यों देता है?
PDF शायद एक स्कैन किया गया दस्तावेज़ है, इसमें टेक्स्ट की छवियाँ हैं, वास्तविक टेक्स्ट डेटा नहीं। निष्कर्षण केवल एम्बेडेड, चयन योग्य टेक्स्ट वाली PDF के साथ काम करता है। स्कैन किए गए दस्तावेज़ों के लिए, OCR (ऑप्टिकल कैरेक्टर रिकग्निशन) सॉफ़्टवेयर की आवश्यकता है।
क्या यह टूल OCR का उपयोग करता है?
नहीं। यह सीधे PDF की संरचना में एम्बेड किए गए टेक्स्ट को निकालता है। यह टेक्स्ट PDF के लिए OCR की तुलना में तेज़ और अधिक सटीक है, लेकिन यह स्कैन की गई छवियों पर टेक्स्ट नहीं पढ़ सकता।
क्या मेरी PDF किसी सर्वर पर भेजी जाती है?
नहीं। सारी प्रोसेसिंग आपके ब्राउज़र में होती है। आपकी PDF कभी आपके डिवाइस से बाहर नहीं जाती, जो इसे गोपनीय दस्तावेज़ों के लिए सुरक्षित बनाता है।
क्या मैं एक विशिष्ट पेज से टेक्स्ट निकाल सकता हूँ?
टूल सभी पेज प्रोसेस करता है और पूरा टेक्स्ट लौटाता है। फिर आप परिणाम से इच्छित अनुभाग कॉपी या संपादित कर सकते हैं।