मुफ्त PDF से टेक्स्ट कनवर्टर

PDF फाइलों से तुरंत पूरी टेक्स्ट सामग्री निकालें। TXT के रूप में डाउनलोड करें या क्लिपबोर्ड पर कॉपी करें। आपकी फाइलें कभी आपके डिवाइस से बाहर नहीं जातीं।

आपकी फाइलें कभी आपके डिवाइस से बाहर नहीं जातीं

PDF फाइल यहां छोड़ें या ब्राउज़ करने के लिए क्लिक करें

PDF समर्थित · 50 MB तक

एक्सट्रैक्शन आँकड़े

0 पेज

0 अक्षर

0 शब्द

यह कैसे काम करता है

PDF अपलोड करें: टेक्स्ट निकालने के लिए एक PDF फाइल छोड़ें या चुनें।
विकल्प सेट करें: पेज सेपरेटर शैली और पेज नंबर शामिल करने का विकल्प चुनें।
टेक्स्ट निकालें: PDF को प्रोसेस करने और सामग्री प्रदर्शित करने के लिए "टेक्स्ट निकालें" पर क्लिक करें।
डाउनलोड या कॉपी करें: निकाले गए टेक्स्ट को क्लिपबोर्ड पर कॉपी करें या TXT फाइल के रूप में डाउनलोड करें।

PDF टेक्स्ट क्यों निकालें?

PDF टेक्स्ट को सादे टेक्स्ट में बदलना दस्तावेज़ सामग्री को प्रोसेस करने, PDF के भीतर खोज करने, डेटा को अन्य एप्लिकेशन में आयात करने, टेक्स्ट सामग्री का बैकअप बनाने या दस्तावेज़ टेक्स्ट का विश्लेषण करने के लिए उपयोगी है। यह टूल सभी टेक्स्ट को पढ़ने के क्रम को बनाए रखते हुए निकालता है, जो इसे रिपोर्ट, शोध पत्र, अनुबंध और अन्य टेक्स्ट-भारी दस्तावेज़ों के लिए परफेक्ट बनाता है।

विशेषताएं

पूर्ण एक्सट्रैक्शन: अपने PDF के हर पेज से सारा टेक्स्ट निकालें।
लचीली फॉर्मेटिंग: पेज सेपरेटर चुनें और पेज नंबर शामिल या बाहर करें।
त्वरित कॉपी: एक क्लिक में निकाले गए टेक्स्ट को सीधे क्लिपबोर्ड पर कॉपी करें।
TXT के रूप में डाउनलोड: बाद में उपयोग के लिए निकाले गए टेक्स्ट को सादे टेक्स्ट फाइल के रूप में सहेजें।
आँकड़े: निकाले गए टेक्स्ट की पेज गिनती, अक्षर गिनती और शब्द गिनती देखें।
गोपनीयता: सारी प्रोसेसिंग आपके ब्राउज़र में स्थानीय रूप से होती है। फाइलें किसी सर्वर पर अपलोड नहीं होतीं।
तेज़: बिना प्रतीक्षा या कतार के तुरंत एक्सट्रैक्शन।

अक्सर पूछे जाने वाले प्रश्न

क्या मैं स्कैन किए गए PDF से टेक्स्ट निकाल सकता हूँ?

यह टूल उन PDF से टेक्स्ट निकालता है जिनमें चयन योग्य टेक्स्ट होता है। स्कैन किए गए PDF (छवि-आधारित) में एक्सट्रैक्ट करने योग्य टेक्स्ट नहीं होता और OCR (ऑप्टिकल कैरेक्टर रिकॉग्निशन) की आवश्यकता होगी, जो यह टूल प्रदान नहीं करता। स्कैन किए गए दस्तावेज़ों के लिए पहले OCR टूल का उपयोग करें।

फाइल साइज़ की सीमा क्या है?

50 MB तक की फाइलें समर्थित हैं। बड़ी फाइलें आपके ब्राउज़र की उपलब्ध मेमोरी के आधार पर काम कर सकती हैं, लेकिन एक्सट्रैक्शन धीमा होगा।

क्या टूल फॉर्मेटिंग को संरक्षित करता है?

निकाला गया टेक्स्ट सादा टेक्स्ट है, इसलिए बोल्ड, इटैलिक और रंगों जैसी फॉर्मेटिंग संरक्षित नहीं होती। हालांकि, टेक्स्ट सामग्री और क्रम यथासंभव सटीक रूप से बनाए रखा जाता है।

क्या मैं मोबाइल पर टेक्स्ट निकाल सकता हूँ?

हाँ। यह टूल डेस्कटॉप, टैबलेट और मोबाइल ब्राउज़र पर काम करता है। बस PDF फाइल चुनने और टेक्स्ट निकालने के लिए टैप करें।

क्या मेरा PDF सर्वर पर अपलोड होता है?

नहीं। सारा टेक्स्ट एक्सट्रैक्शन आपके ब्राउज़र में PDF.js का उपयोग करके स्थानीय रूप से होता है। आपका PDF कभी आपके डिवाइस से बाहर नहीं जाता, जो पूर्ण गोपनीयता और सुरक्षा सुनिश्चित करता है।

क्या मैं पासवर्ड-सुरक्षित PDF से टेक्स्ट निकाल सकता हूँ?

हाँ, यदि PDF उपयोगकर्ता पासवर्ड (मालिक पासवर्ड नहीं) से सुरक्षित है। आपको पहले किसी अन्य टूल का उपयोग करके पासवर्ड हटाने की आवश्यकता होगी, फिर इस टूल से टेक्स्ट निकालें।

PDF टेक्स्ट एक्सट्रैक्टर क्या है?

एक PDF टेक्स्ट एक्सट्रैक्टर एक PDF दस्तावेज़ से एम्बेडेड टेक्स्ट को सादे UTF-8 टेक्स्ट में निकालता है जिसे आप कहीं भी पेस्ट कर सकते हैं। परिणाम केवल अक्षर हैं: कोई फ़ॉन्ट नहीं, कोई रंग नहीं, कोई लेआउट नहीं। यह OCR (ऑप्टिकल कैरेक्टर रिकग्निशन) से मौलिक रूप से अलग है, जो एक छवि से पिक्सेल पढ़ता है और अनुमान लगाता है कि वे कौन से अक्षर दर्शाते हैं। एक्सट्रैक्शन PDF की कंटेंट स्ट्रीम से सीधे टेक्स्ट पढ़ता है, इसलिए यह सटीक और तत्काल है; OCR अनुमानित और धीमा है।

एक्सट्रैक्शन के काम करने का कारण यह है कि अधिकांश PDFs पृष्ठ पर x और y निर्देशांक के साथ टेक्स्ट को स्थित ग्लिफ ऑपरेटर (एकल टेक्स्ट स्ट्रिंग के लिए Tj, समायोजन के साथ सरणियों के लिए TJ) के रूप में संग्रहीत करते हैं। एक्सट्रैक्टर प्रत्येक पृष्ठ की कंटेंट स्ट्रीम के माध्यम से चलता है, प्रत्येक ग्लिफ ऑपरेटर को उसकी स्थिति के साथ एकत्र करता है, और पढ़ने के क्रम को फिर से इकट्ठा करता है। सीधे गद्य के लिए यह अनिवार्य रूप से सही है। बहु-स्तंभ लेआउट, फुटनोट और जटिल तालिकाओं के लिए, एक्सट्रैक्टर हेयुरिस्टिक्स पर निर्भर करता है जो ज्यादातर काम करते हैं लेकिन आश्चर्य पैदा कर सकते हैं।

यह टूल pdf.js का उपयोग करता है, जो Mozilla द्वारा 2011 में शुरू किया गया JavaScript PDF रेंडरर है और Firefox के साथ शिप होता है। सब कुछ आपके ब्राउज़र में चलता है: PDF फ़ाइल मेमोरी में लोड होती है, स्थानीय रूप से पार्स की जाती है, टेक्स्ट आपकी मशीन पर निकाला जाता है, और परिणाम एक टेक्स्ट क्षेत्र में दिखाई देता है जिसे आप कॉपी या डाउनलोड कर सकते हैं। कोई फ़ाइल सर्वर पर अपलोड नहीं होती। लाइब्रेरी PDF 1.0 से PDF 2.0 (ISO 32000-2) और अधिकांश आधुनिक एन्क्रिप्शन योजनाओं को संभालती है।

टूल के अंदर क्या है

टूल का शीर्ष एक ड्रॉप ज़ोन है: PDF फ़ाइल चुनने के लिए क्लिक करें या अपने फ़ाइल प्रबंधक से एक खींचें। 50 MB की सीमा एक आरामदायक ब्राउज़र मेमोरी सीमा है; pdf.js बड़ी फ़ाइलों को संभाल सकता है लेकिन एक बार दस्तावेज़ कुछ सौ पृष्ठों से अधिक हो जाने पर एक्सट्रैक्शन धीमा हो जाता है। जैसे ही फ़ाइल लोड होती है, एक जानकारी पैनल फ़ाइल नाम, पृष्ठ गणना और फ़ाइल आकार दिखाता है ताकि आप पुष्टि कर सकें कि आपने सही दस्तावेज़ चुना है।

फ़ाइल जानकारी के नीचे दो एक्सट्रैक्शन विकल्प हैं। पृष्ठ संख्या शामिल करें टॉगल करता है कि क्या प्रत्येक पृष्ठ की संख्या निकाले गए टेक्स्ट के पहले जुड़ती है। पृष्ठ विभाजक आपको चुनने देता है कि पृष्ठ कैसे विभाजित होते हैं: एक लेबल वाली पट्टी (--- पृष्ठ 3 ---), एक रिक्त रेखा, एक स्पष्ट [PAGE BREAK] मार्कर, या बिल्कुल नहीं। रिक्त रेखा विकल्प लेखन उपकरण में पुनः आयात करने के लिए सबसे अच्छा है; लेबल वाली पट्टी लंबे दस्तावेज़ों को नेविगेट करने के लिए सबसे अच्छी है।

टेक्स्ट निकालें पर क्लिक करें और टूल हर पृष्ठ के माध्यम से लूप करता है, टेक्स्ट सामग्री खींचता है, आपकी विभाजक सेटिंग लागू करता है, और परिणाम नीचे टेक्स्ट क्षेत्र में डालता है। आँकड़े नीचे दिखाई देते हैं: संसाधित पृष्ठ, कुल वर्ण गणना, कुल शब्द गणना। दो बटन आपको परिणाम को क्लिपबोर्ड पर कॉपी करने या इसे .txt फ़ाइल के रूप में डाउनलोड करने देते हैं। आउटपुट सादा UTF-8 है, नोट, ईमेल, स्प्रेडशीट या कोड संपादक में पेस्ट करने के लिए तैयार है।

इतिहास और पृष्ठभूमि

PostScript और प्रिंट करने योग्य पृष्ठ समस्या (1982)

जॉन वार्नॉक और चक गेश्के ने Xerox PARC छोड़ दिया और 1982 में Adobe की स्थापना की। उनका पहला उत्पाद PostScript था, एक पृष्ठ विवरण भाषा जो किसी भी प्रिंट करने योग्य पृष्ठ को छोटे सेट के ड्राइंग ऑपरेटरों का उपयोग करके वर्णित कर सकती थी: मूव, लाइन, कर्व, फिल, ग्लिफ रखें। PostScript ने किसी भी प्रिंटर को किसी भी पृष्ठ को ठीक से पुन: प्रस्तुत करने दिया, लेकिन यह प्रिंटिंग के लिए डिज़ाइन किया गया था, देखने या संपादन के लिए नहीं। PostScript वह तकनीकी आधार है जिस पर बाद में PDF बनाया गया।

PDF 1.0 और Acrobat (1993)

1991 में वार्नॉक ने Camelot नामक एक आंतरिक Adobe पेपर परिचालित किया जो PostScript से व्युत्पन्न लेकिन स्क्रीन देखने और यादृच्छिक पृष्ठ पहुंच के लिए अनुकूलित एक पोर्टेबल दस्तावेज़ फ़ाइल प्रारूप का वर्णन करता है। पहली सार्वजनिक रिलीज़ 15 जून 1993 को Acrobat 1.0 और PDF 1.0 थी। प्रारंभिक अपनाना धीमा था: व्यूअर पैसे लेते थे और फ़ाइलें बड़ी थीं। Adobe ने 1994 में Acrobat Reader को मुफ्त किया और प्रारूप ने 1990 के दशक के अंत में फॉर्म, तकनीकी मैनुअल और सरकारी दस्तावेज़ों के माध्यम से उड़ान भरी।

दीर्घकालिक अभिलेखागार के लिए PDF/A (2005)

PDF/A अक्टूबर 2005 में ISO 19005-1 के रूप में प्रकाशित किया गया था। यह संग्रह के लिए डिज़ाइन किया गया PDF का एक प्रतिबंधित सबसेट है: कोई बाहरी निर्भरता नहीं (सभी फ़ॉन्ट एम्बेडेड), कोई JavaScript नहीं, कोई एन्क्रिप्शन नहीं, कोई ऑडियो या वीडियो नहीं। मुद्दा यह है कि 50 साल में खोली गई PDF/A फ़ाइल आज जैसी ही दिखेगी। अधिकांश राष्ट्रीय अभिलेखागार, अदालतें और कॉर्पोरेट रिकॉर्ड सिस्टम दीर्घकालिक भंडारण के लिए PDF/A की आवश्यकता रखते हैं। PDF/A से टेक्स्ट एक्सट्रैक्शन असामान्य रूप से विश्वसनीय है क्योंकि प्रारूप ToUnicode फ़ॉन्ट मैप अनिवार्य करता है।

PDF एक ISO मानक बनता है (2008)

Adobe ने 2008 में अंतर्राष्ट्रीय मानकीकरण संगठन को PDF विनिर्देश का नियंत्रण सौंप दिया। ISO 32000-1:2008 ने PDF 1.7 को एक खुले अंतर्राष्ट्रीय मानक के रूप में संहिताबद्ध किया। इस बिंदु से कोई भी Adobe से PDF का लाइसेंस लिए बिना पूरी तरह से अनुरूप PDF रीडर लागू कर सकता था। ISO 32000-2 2017 (PDF 2.0) में आया, बेहतर डिजिटल हस्ताक्षर और HDR रेंडरिंग जैसी नई सुविधाओं के लिए नेटिव समर्थन जोड़ता है।

pdf.js ब्राउज़र में PDF व्यूअर खोलता है (2011)

Mozilla के एंड्रियास गाल ने 2011 के मध्य में केवल HTML5, JavaScript और Canvas का उपयोग करके PDF दस्तावेज़ों को रेंडर करने के लिए एक प्रायोगिक परियोजना के रूप में pdf.js लॉन्च किया। pdf.js से पहले, ब्राउज़र में PDF देखने के लिए एक प्लगइन (Adobe Reader प्लगइन, Foxit या समान) की आवश्यकता थी। pdf.js ने नेटिव ब्राउज़र-आधारित PDF देखने को संभव बनाया। Mozilla ने इसे फरवरी 2013 में Firefox 19 में बंडल किया, किसी भी PDF प्लगइन की आवश्यकता को हटा दिया। यह वह लाइब्रेरी है जिसका यह एक्सट्रैक्टर उपयोग करता है।

Chrome PDFium जारी करता है (2014)

Google ने मई 2014 में PDFium को ओपन-सोर्स किया। PDFium एक अलग PDF इंजन है, जो वाणिज्यिक Foxit PDF SDK से व्युत्पन्न है, और यह वही है जो Chrome और Edge के भीतर PDF रेंडरिंग को शक्ति देता है। PDFium C++ में लिखा है; pdf.js JavaScript में लिखा है। एक्सट्रैक्शन के दृष्टिकोण से दोनों इंजन समान टेक्स्ट उत्पन्न करते हैं, लेकिन PDF/A और फ़ॉर्म हैंडलिंग समर्थन भिन्न होता है। यह टूल pdf.js का उपयोग करता है क्योंकि यह बिना प्लगइन या संकलित बाइनरी के किसी भी ब्राउज़र में नेटिव चलता है।

व्यावहारिक वर्कफ़्लो

एक शोध पत्र से उद्धरण निकालना

PDF में ड्रॉप करें, एक्सट्रैक्ट पर क्लिक करें, अपनी इच्छित मार्ग खोजने के लिए स्क्रॉल करें, और इसे अपने नोट्स या उद्धरण प्रबंधक में कॉपी करें। एकल-स्तंभ पत्र साफ निकलते हैं। दो-स्तंभ पत्र (सम्मेलन और जर्नल शैली के विशिष्ट) बाएं और दाएं स्तंभों से टेक्स्ट इंटरलीव कर सकते हैं; उस मामले में वैश्विक एक्सट्रैक्शन पर भरोसा करने के बजाय प्रत्येक स्तंभ को मैन्युअल रूप से कॉपी करें। लंबे उद्धरणों के लिए, रिक्त-रेखा पृष्ठ विभाजक को प्राथमिकता दें ताकि पैराग्राफ ब्रेक बच जाएँ।

एक अनुबंध में विशिष्ट खंडों की खोज करना

कानूनी अनुबंध अक्सर सैकड़ों पृष्ठ होते हैं और PDF रीडर की अंतर्निहित खोज संदर्भ चूक जाती है। पूरा टेक्स्ट निकालें, टेक्स्ट संपादक में पेस्ट करें, और एक व्यापक संदर्भ विंडो (5 लाइनें पहले और बाद में) के साथ Find या grep का उपयोग करें। यह स्क्रॉल करने से तेज़ है और आपको देयता या समाप्ति का उल्लेख करने वाले सभी खंडों जैसे पैटर्न के लिए एक नियमित अभिव्यक्ति लिखने देता है। लेबल वाला पृष्ठ विभाजक रखें ताकि आप PDF में मूल स्थान का पता लगा सकें।

लेखन या अनुवाद परियोजना के लिए बड़ी मात्रा में टेक्स्ट

जब आपको एक लंबे PDF दस्तावेज़ का अनुवाद, पुनर्लेखन या सारांश करने की आवश्यकता हो, तो पहला कदम कच्चा टेक्स्ट निकालना है। एक बार निकालें, .txt फ़ाइल सहेजें, और वहां से काम करें। PDF रीडर से सीधे कॉपी करने से बचें, जो अक्सर गलत स्थानों पर लाइन ब्रेक पेश करता है और पृष्ठ सीमाओं पर शब्दों को तोड़ता है। रिक्त-रेखा विभाजक अनुवाद उपकरण या LLM के इनपुट के रूप में अच्छा काम करता है।

रसीदों को स्प्रेडशीट में खींचना

ईमेल द्वारा भेजी गई आधुनिक रसीदें और चालान अक्सर स्कैन के बजाय एम्बेडेड टेक्स्ट के साथ PDFs होते हैं। निकालें, फिर एक नियमित अभिव्यक्ति के साथ कुल पार्स करें। दोहराए जाने वाले प्रारूपों के लिए (एक विक्रेता जो हर महीने एक ही चालान लेआउट भेजता है), एक पाँच-पंक्ति स्क्रिप्ट दिनांक, कुल और कर फ़ील्ड को स्वचालित रूप से स्प्रेडशीट में खींच सकती है। स्कैन की गई रसीदें काम नहीं करेंगी; उनको पहले OCR की आवश्यकता है।

गलत डिवाइस पर ईबुक पढ़ना

PDF ई-रीडर के लिए एक खराब प्रारूप है क्योंकि पृष्ठ आकार स्थिर है; टेक्स्ट रिफ़्लो नहीं होता। टेक्स्ट निकालें, EPUB कनवर्टर में पेस्ट करें, और अब पुस्तक किसी भी स्क्रीन पर रिफ़्लो होती है। पृष्ठ संख्या और फुटनोट्स को रूपांतरण से पहले मैन्युअल रूप से हटाया जा सकता है। यह तरकीब उन तकनीकी पुस्तकों और सम्मेलन कार्यवाहियों के लिए सबसे उपयोगी है जिन्हें प्रकाशक केवल PDF के रूप में जारी करते हैं।

मीटिंग मिनट्स को सादे टेक्स्ट के रूप में साझा करना

जब कोई सहयोगी मीटिंग मिनट्स को PDF के रूप में ईमेल करता है और आप Slack या एक विकी में सारांश पेस्ट करना चाहते हैं, तो पहले निकालें। टेक्स्ट साफ निकलता है और आप किसी भी हिस्से को बिना अजीब फ़ॉन्ट कलाकृतियों या छिपे प्रारूपण के पेस्ट कर सकते हैं। एक्शन आइटम वाले मिनट्स के लिए, लेबल वाला-बार पृष्ठ विभाजक बाद में प्रश्न आने पर मूल दस्तावेज़ अनुभाग का पता लगाने में मदद करता है।

सामान्य त्रुटियाँ

स्कैन किए गए PDFs खाली आउटपुट उत्पन्न करते हैं

यदि PDF कागज़ी दस्तावेज़ को स्कैन करके बनाया गया था (फ्लैटबेड स्कैन, फ़ोन फ़ोटो या कॉपियर आउटपुट), तो इसमें अंतर्निहित टेक्स्ट नहीं बल्कि पृष्ठ की एक छवि होती है। एक्सट्रैक्टर टेक्स्ट ऑपरेटरों की तलाश में कंटेंट स्ट्रीम के माध्यम से चलता है और कोई नहीं पाता, इसलिए आउटपुट खाली है या केवल आवारा पृष्ठ संख्या रखता है यदि वे मैन्युअल रूप से टाइप किए गए थे। समाधान यह है कि पहले PDF को OCR के माध्यम से चलाएं (Tesseract, Adobe Acrobat के पाठ पहचानें, या ABBYY FineReader जैसे टूल), जो एक छिपी हुई टेक्स्ट परत जोड़ता है जिसे यह टूल फिर निकाल सकता है।

बहु-स्तंभ लेआउट टेक्स्ट को इंटरलीव कर सकते हैं

अकादमिक जर्नल, पत्रिकाएँ और समाचार पत्र आमतौर पर प्रति पृष्ठ दो या तीन स्तंभों का उपयोग करते हैं। pdf.js पृष्ठ पर अपनी स्थिति के अनुसार प्रत्येक टेक्स्ट रन को निकालता है और पढ़ने के क्रम को फिर से बनाने के लिए हेयुरिस्टिक्स का उपयोग करता है, लेकिन ये हेयुरिस्टिक्स एकल-स्तंभ प्रवाह मानते हैं। बहु-स्तंभ पृष्ठ के लिए परिणाम यह हो सकता है: बाएँ स्तंभ की पहली पंक्ति, दाएँ स्तंभ की पहली पंक्ति, बाएँ स्तंभ की दूसरी पंक्ति, और इसी तरह। इन लेआउट के लिए, एक बार में एक पृष्ठ निकालें और आँख से स्तंभों का चयन करें, या pdfplumber Python लाइब्रेरी जैसे लेआउट-जागरूक टूल का उपयोग करें।

कस्टम फ़ॉन्ट एन्कोडिंग बकवास उत्पन्न करते हैं

एक PDF कोई भी फ़ॉन्ट उपयोग कर सकता है, और फ़ॉन्ट अपने ग्लिफ़ ID को लेखक की पसंद के किसी भी वर्ण कोड पर मैप कर सकता है। PDF/A और अधिकांश आधुनिक PDFs में एक ToUnicode मानचित्र शामिल है जो कहता है कि ग्लिफ़ 5 का अर्थ A अक्षर है, लेकिन पुराने या लापरवाह PDFs कभी-कभी मानचित्र छोड़ देते हैं। ToUnicode के बिना, निकाला गया टेक्स्ट कच्चे ग्लिफ़ ID हैं (अक्सर बक्सों, संख्याओं या यादृच्छिक अक्षरों के रूप में दिखाई देते हैं), और OCR के बिना मूल वर्णों को पुनर्प्राप्त करने का कोई तरीका नहीं है। यदि केवल विशिष्ट शब्द गलत दिखते हैं, तो कारण आमतौर पर एक एम्बेडेड फ़ॉन्ट के लिए ToUnicode का गायब होना है।

लिगाचर संयुक्त वर्णों के रूप में निकाल सकते हैं

पेशेवर टाइपोग्राफी कुछ अक्षर जोड़ों (fi, fl, ff, ffi) को लिगाचर नामक एकल ग्लिफ़ में जोड़ती है। PDF लिगाचर को दो अक्षर f और i के बजाय Unicode कोडपॉइंट U+FB01 (fi लिगाचर) के रूप में संग्रहीत कर सकता है। निकाले गए टेक्स्ट में लिगाचर कोडपॉइंट होता है, जिसे अधिकांश संपादक सही ढंग से प्रस्तुत करते हैं लेकिन कुछ टेक्स्ट-प्रसंस्करण टूल अटक जाते हैं। यदि आप आउटपुट को खोज सूचकांक या प्राकृतिक-भाषा टूल में फीड कर रहे हैं, तो U+FB01 को fi और U+FB02 को fl में सामान्य बनाने के लिए एक-पंक्ति प्रतिस्थापन चलाएं।

हेडर और फुटर हर पृष्ठ पर दोहराते हैं

अधिकांश PDFs में हर पृष्ठ पर एक चालू हेडर (अध्याय शीर्षक, दस्तावेज़ शीर्षक) और फुटर (पृष्ठ संख्या, कॉपीराइट लाइन) होता है। एक्सट्रैक्टर उन्हें उठाता है क्योंकि वे पृष्ठ पर वास्तविक टेक्स्ट हैं, और आप 200 पृष्ठ के दस्तावेज़ में एक ही पंक्ति को 200 बार दोहराते हुए समाप्त करते हैं। समाधान एक सरल डिडुप्लीकेशन स्क्रिप्ट है या एक्सट्रैक्शन के बाद एक मैन्युअल खोज-और-प्रतिस्थापन पास है। लंबे दस्तावेज़ों के लिए, यह कभी-कभी सबसे बड़ा सफाई कदम होता है।

गणित समीकरण और सूत्र शायद ही कभी साफ निकलते हैं

गणित विशेष प्रतीक फ़ॉन्ट (Computer Modern, STIX) से व्यक्तिगत ग्लिफ़ का उपयोग करके स्थित होती है। एक्सट्रैक्टर ग्लिफ़ पढ़ता है लेकिन उन स्थानिक संबंधों को खो देता है जो x वर्ग को x गुणा 2 से अलग बनाते हैं। E बराबर mc वर्ग जैसे इनलाइन समीकरण विकृत निकलते हैं, और प्रदर्शन समीकरण उलझे हुए प्रतीक अनुक्रमों के रूप में निकलते हैं। गणित-भारी PDFs के लिए, एक ऐसा टूल उपयोग करें जो समीकरण संरचना को संरक्षित करता है (MathPix snip, समीकरण रिफ़्लो के साथ Adobe Acrobat Pro), या समीकरणों को छवियों के रूप में निकालें।

गोपनीयता और डेटा हैंडलिंग

आप जो PDF फ़ाइल टूल में छोड़ते हैं वह पूरे समय आपके डिवाइस पर रहती है। pdf.js एक JavaScript लाइब्रेरी है जो आपके ब्राउज़र में चलती है, किसी रिमोट सर्वर पर नहीं। फ़ाइल आपके ब्राउज़र द्वारा मेमोरी में लोड की जाती है, पृष्ठ दर पृष्ठ पार्स की जाती है, और निकाला गया टेक्स्ट उसी पृष्ठ के टेक्स्ट क्षेत्र में दिखाई देता है। हम कभी भी फ़ाइल अपलोड नहीं करते, कभी भी इसकी सामग्री को लॉग नहीं करते, और कभी भी इसका विश्लेषण नहीं करते। यह मायने रखता है क्योंकि PDFs में अक्सर गोपनीय जानकारी होती है: अनुबंध, चिकित्सा रिकॉर्ड, कानूनी पत्राचार, वित्तीय विवरण।

एक बार पृष्ठ लोड हो जाने के बाद, टूल ऑफ़लाइन काम करता है। आप इंटरनेट से डिस्कनेक्ट कर सकते हैं, एक PDF छोड़ सकते हैं, इसे निकाल सकते हैं, और परिणाम कॉपी कर सकते हैं बिना आपके डेटा को कभी किसी अन्य मशीन को छुए। निकाला गया टेक्स्ट आपकी मशीन को केवल तभी छोड़ता है जब आप खुद इसे कहीं पेस्ट या भेजने का विकल्प चुनते हैं। कई SaaS PDF एक्सट्रैक्टर्स प्रसंस्करण के लिए आपकी फ़ाइल को क्लाउड सेवा में भेजते हैं; संवेदनशील दस्तावेज़ों के लिए यह बिल्कुल वही है जिससे आप बचना चाहते हैं।

इस टूल का उपयोग कब न करें

स्कैन किए गए या केवल-छवि PDFs (पहले OCR की आवश्यकता)

यदि आपकी PDF कागज़ का स्कैन है या फ़ोटो की एक श्रृंखला है, तो निकालने के लिए कोई एम्बेडेड टेक्स्ट नहीं है; यह टूल खाली परिणाम लौटाता है। पाठ परत जोड़ने के लिए पहले PDF को एक OCR इंजन के माध्यम से चलाएं: Tesseract (मुफ़्त, कमांड-लाइन, अंग्रेज़ी और लैटिन लिपियों के लिए बहुत अच्छा), Adobe Acrobat Pro (भुगतान, सर्वोत्तम लेआउट प्रतिधारण), या ABBYY FineReader (भुगतान, गैर-लैटिन लिपियों और जटिल दस्तावेज़ों के लिए सर्वोत्तम)। OCR के बाद, यह एक्सट्रैक्टर सामान्य रूप से काम करेगा।

फ़ील्ड मानों वाले भरने योग्य PDF फ़ॉर्म

एक PDF फ़ॉर्म फ़ील्ड मानों (नाम फ़ील्ड में टाइप किया गया टेक्स्ट, चेकबॉक्स की चेक की गई स्थिति) को पृष्ठ के स्थिर टेक्स्ट से अलग संग्रहीत करता है। यह एक्सट्रैक्टर केवल स्थिर पृष्ठ टेक्स्ट पढ़ता है, इसलिए फ़ॉर्म मान चूक जाते हैं। फ़ॉर्म डेटा निकालने के लिए, एक PDF फ़ॉर्म लाइब्रेरी का उपयोग करें जो AcroForm या XFA डिक्शनरी को सीधे पढ़ती है (pdftk, Adobe Acrobat डेटा निर्यात करें, या python-pdfplumber की form-field API)।

जब आपको प्रारूपण को संरक्षित करने की आवश्यकता हो

सादा टेक्स्ट सभी प्रारूपण खो देता है: बोल्ड, इटैलिक, सूचियाँ, तालिकाएँ, शीर्षक, रंग, फ़ॉन्ट। यदि आपको ऐसे संपादन योग्य दस्तावेज़ की आवश्यकता है जो लेआउट को संरक्षित करता है, तो इसके बजाय PDF-से-Word कनवर्टर का उपयोग करें (जो पैराग्राफ शैलियों और तालिकाओं के साथ एक संरचित Word दस्तावेज़ बनाता है), या वेब-अनुकूल आउटपुट के लिए PDF-से-HTML। PDF-से-टेक्स्ट उस मामले के लिए है जहाँ आपको वास्तव में केवल शब्दों की आवश्यकता है।

पासवर्ड के बिना एन्क्रिप्टेड PDFs

PDFs को उपयोगकर्ता पासवर्ड (फ़ाइल खोलने के लिए आवश्यक) या स्वामी पासवर्ड (मुद्रण या प्रतिलिपि बनाने जैसी क्रियाओं को प्रतिबंधित करता है) के साथ एन्क्रिप्ट किया जा सकता है। pdf.js को एक एन्क्रिप्टेड फ़ाइल खोलने के लिए उपयोगकर्ता पासवर्ड की आवश्यकता होती है; इसके बिना, कोई एक्सट्रैक्शन संभव नहीं है। पहले PDF अनलॉक टूल के साथ पासवर्ड हटाएं (केवल उन दस्तावेज़ों पर जिन तक आपकी पहुँच का अधिकार है) और फिर निकालें। स्वामी पासवर्ड कभी-कभी Adobe Reader के भीतर प्रतिलिपि बनाने को अवरुद्ध करता है लेकिन यहाँ एक्सट्रैक्शन को अवरुद्ध नहीं करता।

अधिक प्रश्न

PDF टेक्स्ट परत क्या है?

एक टेक्स्ट परत PDF का वह हिस्सा है जो वर्णों को पिक्सेल के बजाय मशीन-पठनीय टेक्स्ट (कंटेंट स्ट्रीम में Tj और TJ ऑपरेटर) के रूप में संग्रहीत करता है। Word, LaTeX या वेब-टू-PDF टूल द्वारा बनाई गई डिजिटल PDFs में हमेशा एक टेक्स्ट परत होती है। स्कैन की गई PDFs में नहीं होती, जब तक कि आप OCR के साथ एक नहीं जोड़ते। टेक्स्ट परत वह है जो खोज, कॉपी-पेस्ट, स्क्रीन रीडर और इस एक्सट्रैक्टर जैसे टूल को काम करने की अनुमति देती है।

मेरा निकाला गया टेक्स्ट कुछ हिस्से में उलझा हुआ या क्रम से बाहर क्यों है?

PDFs पढ़ने के क्रम में टेक्स्ट संग्रहीत नहीं करते; वे इसे पृष्ठ पर x और y स्थानों पर ग्लिफ़ ऑपरेटरों के रूप में संग्रहीत करते हैं। एक्सट्रैक्टर पंक्तियों के भीतर ऊपर से नीचे और बाएँ से दाएँ क्रमबद्ध करके पढ़ने के क्रम को फिर से बनाता है। यह एकल-स्तंभ प्रवाह के लिए काम करता है लेकिन स्तंभों को इंटरलीव कर सकता है, हेडर को मुख्य टेक्स्ट के साथ मिला सकता है, या स्तंभ ब्रेक पर पैराग्राफ विभाजित कर सकता है। जटिल लेआउट के लिए, पृष्ठ-दर-पृष्ठ कॉपी करने का प्रयास करें या pdfplumber जैसी लेआउट-जागरूक Python लाइब्रेरी का उपयोग करें।

क्या मैं सैकड़ों पृष्ठ लंबे PDF से टेक्स्ट निकाल सकता हूँ?

हाँ, लेकिन उम्मीद करें कि इसमें अधिक समय लगेगा और अधिक मेमोरी का उपयोग होगा। प्रत्येक पृष्ठ JavaScript में क्रमिक रूप से पार्स किया जाता है, जो सिंगल-थ्रेडेड है, इसलिए 500-पृष्ठ की पुस्तक आपकी मशीन और पृष्ठों की जटिलता के आधार पर 20 से 60 सेकंड ले सकती है। ब्राउज़र की मेमोरी छत (डेस्कटॉप Chrome के लिए कुछ GB, मोबाइल के लिए कम) पृष्ठ गणना से अधिक कुल फ़ाइल आकार को सीमित करती है। यदि एक विशाल PDF लटकता है, तो पहले इसे PDF स्प्लिटर टूल के साथ विभाजित करने और टुकड़ों में निकालने का प्रयास करें।

PDF/A क्या है और इसका टेक्स्ट निकालना आसान क्यों है?

PDF/A ISO 19005 द्वारा परिभाषित PDF का अभिलेखीय सबसेट है। इसमें सभी फ़ॉन्ट को ToUnicode मानचित्र के साथ एम्बेड करने की आवश्यकता होती है, सभी रंग प्रोफ़ाइल स्व-निहित हों, और किसी भी बाहरी संसाधन का संदर्भ नहीं हो। ToUnicode आवश्यकता एक्सट्रैक्शन को विश्वसनीय बनाने वाली चीज़ है: दस्तावेज़ में प्रत्येक ग्लिफ़ एक मानक Unicode वर्ण पर वापस मैप करता है। राष्ट्रीय अभिलेखागार, अदालतें और कॉर्पोरेट रिकॉर्ड सिस्टम PDF/A का उपयोग ठीक इसलिए करते हैं ताकि टेक्स्ट दशकों बाद भी निकाला जा सकता रहे।

Adobe Acrobat की तुलना में एक्सट्रैक्शन कितना सटीक है?

सीधे डिजिटल PDFs के लिए आउटपुट वर्ण-दर-वर्ण समान है। Acrobat के पास जटिल बहु-स्तंभ लेआउट और तालिकाओं को संभालने के लिए अधिक परिष्कृत हेयुरिस्टिक्स हैं, इसलिए उन विशिष्ट मामलों के लिए इसका आउटपुट अधिक पठनीय हो सकता है। pdf.js (यह टूल) 2011 से सक्रिय रूप से विकसित है और अब PDF विनिर्देश के अधिकांश अनुपालन परीक्षणों को पास करता है। विशिष्ट कार्यालय और शोध दस्तावेज़ों के लिए अंतर नगण्य है।

क्या टूल गैर-लैटिन लिपियों (चीनी, अरबी, सिरिलिक) का समर्थन करता है?

हाँ, बशर्ते PDF में उन वर्णों के लिए उचित ToUnicode मानचित्र हो (जो किसी भी आधुनिक PDF में होता है)। निकाला गया टेक्स्ट UTF-8 है और किसी भी आधुनिक संपादक में सही ढंग से प्रस्तुत होता है। अरबी और हिब्रू जैसी दाएँ-से-बाएँ लिपियाँ तार्किक क्रम में निकाली जाती हैं, दृश्य क्रम में नहीं, जो आगे की प्रक्रिया के लिए आप चाहते हैं। CJK (चीनी, जापानी, कोरियाई) एक्सट्रैक्शन पूरी तरह से समर्थित है क्योंकि pdf.js उन लिपियों के लिए PDF द्वारा उपयोग किए जाने वाले CIDFont सिस्टम को संभालता है।