PDF से टेक्स्ट कैसे निकालें

· 7 मिनट पढ़ने का समय

PDF से टेक्स्ट कॉपी करना आश्चर्यजनक रूप से निराशाजनक हो सकता है। फॉर्मेटिंग टूट जाती है, कॉलम मर्ज हो जाते हैं, और लाइन ब्रेक गलत स्थानों पर दिखाई देते हैं। एक समर्पित टेक्स्ट निष्कर्षण उपकरण PDF संरचना से कच्ची टेक्स्ट सामग्री खींचता है, आपको साफ सादा टेक्स्ट देता है जिसके साथ आप वास्तव में काम कर सकते हैं। ब्राउज़र-आधारित एक्सट्रैक्टर पूरा काम स्थानीय रूप से संभालता है, आपके दस्तावेज़ को सर्वर पर अपलोड किए बिना।

टेक्स्ट-आधारित बनाम स्कैन किए गए PDF

टेक्स्ट निकालने से पहले, यह समझना मददगार है कि आपके पास किस प्रकार का PDF है:

टेक्स्ट-आधारित PDF: Word दस्तावेज़ों, वेब पेजों या अन्य डिजिटल स्रोतों से बनाए गए। टेक्स्ट PDF के अंदर डेटा के रूप में संग्रहीत होता है। इन फ़ाइलों को देखते समय आप टेक्स्ट का चयन और हाइलाइट कर सकते हैं। टेक्स्ट निष्कर्षण इनके साथ पूरी तरह से काम करता है।

स्कैन किए गए PDF: एक भौतिक दस्तावेज़ को स्कैन करके बनाए गए। PDF में पृष्ठों की छवियाँ होती हैं, वास्तविक टेक्स्ट डेटा नहीं। आप इन फ़ाइलों में टेक्स्ट का चयन नहीं कर सकते। मानक टेक्स्ट निष्कर्षण खाली परिणाम देता है, आपको इसके बजाय OCR सॉफ़्टवेयर की आवश्यकता है।

हाइब्रिड PDF: कुछ PDF में डिजिटल टेक्स्ट और स्कैन की गई छवियों का मिश्रण होता है। एक्सट्रैक्टर टेक्स्ट भागों को कैप्चर करेगा लेकिन छवि-आधारित सामग्री को नहीं।

खोज योग्य स्कैन किए गए PDF: एक स्कैन किया गया PDF जिसे किसी ने OCR के माध्यम से चलाया है, जिसमें पृष्ठ छवियों के पीछे टेक्स्ट परत एम्बेड की गई है। टेक्स्ट निष्कर्षण इन पर काम करता है क्योंकि OCR टेक्स्ट PDF में संग्रहीत है। सटीकता OCR गुणवत्ता पर निर्भर करती है, स्कैन किए गए OCR टेक्स्ट में अक्सर गलत पहचाने गए वर्णों से टाइपो होते हैं।

PDF से टेक्स्ट कैसे निकालें

  1. अपना PDF अपलोड करें: फ़ाइल का चयन करें या इसे खींचें और छोड़ें। उपकरण किसी भी मानक PDF को स्वीकार करता है।
  2. टेक्स्ट निकालें: निकालने वाले बटन पर क्लिक करें। उपकरण सभी पृष्ठों को संसाधित करता है और कच्चा टेक्स्ट प्रदर्शित करता है।
  3. कॉपी या डाउनलोड करें: टेक्स्ट को अपने क्लिपबोर्ड पर कॉपी करें या इसे TXT फ़ाइल के रूप में डाउनलोड करें।

PDF टेक्स्ट निष्कर्षण का संक्षिप्त इतिहास

PDF को Adobe ने 1993 में एक जानबूझकर जटिल आंतरिक संरचना के साथ बनाया था। एक PDF टेक्स्ट को स्थापित ग्लिफ़ (वर्ण + पृष्ठ पर x/y निर्देशांक) के रूप में संग्रहीत करता है, न कि बहती गद्य के रूप में। पठनीय टेक्स्ट निकालने के लिए, एक उपकरण को इन ग्लिफ़ स्थितियों को पढ़ना होगा और शब्द सीमाओं, लाइन ब्रेक और पठन क्रम का अनुमान लगाकर पैराग्राफ का पुनर्निर्माण करना होगा।

पहला व्यापक रूप से उपयोग किया जाने वाला PDF टेक्स्ट एक्सट्रैक्टर pdftotext (1996) था, जो Derek Noonburg के ओपन-सोर्स xpdf प्रोजेक्ट का हिस्सा था। इसने एक सरल एल्गोरिथ्म का उपयोग किया: ग्लिफ़ को Y फिर X द्वारा क्रमबद्ध करें, लाइन से समूहित करें, लाइनों को ब्लॉक में समूहित करें। अधिकांश आधुनिक एक्सट्रैक्टर अभी भी इस दृष्टिकोण के परिष्कृत संस्करण का उपयोग करते हैं।

PDF.js (Mozilla, 2011) ने प्लगइन के बिना ब्राउज़र में PDF रेंडरिंग लाई। इसने एक टेक्स्ट-निष्कर्षण API भी उजागर किया जो आज इस सहित अधिकांश ब्राउज़र-आधारित एक्सट्रैक्टर को शक्ति प्रदान करता है। PDF.js हर PDF विशेषता को पढ़ सकता है जो ब्राउज़र को चाहिए: टेक्स्ट, छवियाँ, फॉर्म, एनोटेशन, हस्ताक्षर, एम्बेडेड फॉन्ट।

वर्षों में मुख्य सुधार रहे हैं:

आधुनिक निष्कर्षण गद्य दस्तावेज़ों (पुस्तकें, लेख, अनुबंध) के लिए अच्छा है। यह अभी भी बहु-कॉलम वैज्ञानिक पत्रों, जटिल तालिकाओं और भारी प्रारूपित ब्रोशर के साथ संघर्ष करता है।

टेक्स्ट निष्कर्षण कब उपयोगी है

आउटपुट प्रारूप विकल्प

अलग-अलग उपयोगों को अलग-अलग आउटपुट प्रारूपों की आवश्यकता होती है:

प्रारूपके लिए सर्वश्रेष्ठसीमाएँ
सादा टेक्स्ट (.txt)सार्वभौमिक, कोई फॉर्मेटिंग नहींशीर्षक, सूचियाँ, तालिकाएँ खो देता है
Markdown (.md)संरचित दस्तावेज़, शीर्षक संरक्षिततालिकाओं को मैन्युअल सुधार की आवश्यकता हो सकती है
HTMLवेब प्रदर्शन, बोल्ड/इटैलिक संरक्षित.txt से अधिक जटिल
Word (.docx)Microsoft Word में संपादनकुछ PDF-विशिष्ट फॉर्मेटिंग खो देता है
JSONप्रति-पृष्ठ या प्रति-ब्लॉक निष्कर्षणडेवलपर्स के लिए, सीधे पढ़ने के लिए नहीं
XML/EPUBई-पुस्तक रूपांतरणजटिल सेटअप

अधिकांश दैनिक निष्कर्षण के लिए (एक पैराग्राफ की प्रतिलिपि बनाना, LLM को टेक्स्ट फीड करना), सादा टेक्स्ट सही विकल्प है। लंबे दस्तावेज़ों के लिए जिन्हें आप पुनः संपादित करने का इरादा रखते हैं, PDF से Word आमतौर पर बेहतर है।

सामान्य चूक

वैकल्पिक दृष्टिकोण

यदि ब्राउज़र-आधारित निष्कर्षण आपके PDF के लिए काम नहीं करता है:

गोपनीय PDF के लिए जो आपकी मशीन को नहीं छोड़ना चाहिए, ब्राउज़र-आधारित निष्कर्षण (यह उपकरण) या स्थानीय कमांड-लाइन उपकरण (pdftotext) ही एकमात्र सुरक्षित विकल्प हैं।

सुझाव

गोपनीयता और गोपनीय PDF

PDF टेक्स्ट एक्सट्रैक्टर पूरी तरह से आपके ब्राउज़र में चलता है। आप जो PDF अपलोड करते हैं, मध्यवर्ती प्रसंस्करण, और निकाला गया टेक्स्ट सभी आपके डिवाइस पर रहते हैं। कुछ भी सर्वर पर अपलोड नहीं किया जाता, लॉग नहीं किया जाता, या किसी के साथ साझा नहीं किया जाता।

यह महत्वपूर्ण है क्योंकि जिन PDF से आप टेक्स्ट निकालते हैं वे अक्सर बहुत संवेदनशील होते हैं: एम्बेडेड खंडों वाले अनुबंध जिन्हें आपको उद्धृत करने की आवश्यकता है, मेडिकल रिकॉर्ड और प्रयोगशाला रिपोर्ट, खाता संख्याओं वाले वित्तीय विवरण, वकील-क्लाइंट विशेषाधिकार के तहत कानूनी अभिलेख, रोज़गार प्रस्ताव पत्र और वेतन विवरण, आंतरिक कॉर्पोरेट दस्तावेज़, प्रकाशन से पहले प्रतिबंध के तहत शोध पत्र, स्कैन की गई आईडी और पासपोर्ट, आव्रजन दस्तावेज़। क्लाउड PDF एक्सट्रैक्टर डिज़ाइन से आपकी फ़ाइलों को अपने सर्वर पर अपलोड करते हैं, अक्सर «सेवा सुधार» के लिए उन्हें बनाए रखते हैं, और वास्तविक डेटा लीक में शामिल रहे हैं जहाँ गोपनीय अनुबंध और मेडिकल रिकॉर्ड खोज इंजन द्वारा अनुक्रमित हो गए। ब्राउज़र-आधारित एक्सट्रैक्टर में शून्य एक्सपोज़र है: PDF कभी आपकी मशीन नहीं छोड़ता।

ब्राउज़र-आधारित निष्कर्षण पृष्ठ लोड होने के बाद ऑफ़लाइन भी काम करता है, हवाई जहाज़ों पर, इंटरनेट एक्सेस के बिना सुरक्षित सुविधाओं में दस्तावेज़ों को संसाधित करने के लिए, या कहीं भी जहाँ आप किसी तृतीय पक्ष को गोपनीय दस्तावेज़ अपलोड नहीं कर सकते या नहीं करना चाहिए, उपयोगी।

अक्सर पूछे जाने वाले प्रश्न

मेरी PDF का निष्कर्षण खाली परिणाम क्यों देता है?

PDF शायद एक स्कैन किया गया दस्तावेज़ है, इसमें टेक्स्ट की छवियाँ हैं, वास्तविक टेक्स्ट डेटा नहीं। निष्कर्षण केवल एम्बेडेड, चयन योग्य टेक्स्ट वाली PDF के साथ काम करता है। स्कैन किए गए दस्तावेज़ों के लिए, OCR (ऑप्टिकल कैरेक्टर रिकग्निशन) सॉफ़्टवेयर की आवश्यकता है।

क्या यह टूल OCR का उपयोग करता है?

नहीं। यह सीधे PDF की संरचना में एम्बेड किए गए टेक्स्ट को निकालता है। यह टेक्स्ट PDF के लिए OCR की तुलना में तेज़ और अधिक सटीक है, लेकिन यह स्कैन की गई छवियों पर टेक्स्ट नहीं पढ़ सकता।

क्या मेरी PDF किसी सर्वर पर भेजी जाती है?

नहीं। सारी प्रोसेसिंग आपके ब्राउज़र में होती है। आपकी PDF कभी आपके डिवाइस से बाहर नहीं जाती, जो इसे गोपनीय दस्तावेज़ों के लिए सुरक्षित बनाता है।

क्या मैं एक विशिष्ट पेज से टेक्स्ट निकाल सकता हूँ?

टूल सभी पेज प्रोसेस करता है और पूरा टेक्स्ट लौटाता है। फिर आप परिणाम से इच्छित अनुभाग कॉपी या संपादित कर सकते हैं।