मुफ़्त ऑनलाइन PDF से छवि निष्कर्षण

अपनी PDF फ़ाइलों में एम्बेड की गई सभी छवियों को तुरंत निकालें। उन्हें आयामों के साथ पूर्वावलोकन करें, उन्हें व्यक्तिगत रूप से या ZIP संग्रह के रूप में डाउनलोड करें।

100% क्लाइंट-साइड · आपकी फ़ाइलें आपके डिवाइस से कभी नहीं जातीं

PDF फ़ाइल यहाँ छोड़ें या ब्राउज़ करने के लिए क्लिक करें

PDF का समर्थन करता है · 50 MB तक

प्रोसेसिंग: 0%

यह कैसे काम करता है

PDF अपलोड करें: इमेज निकालने के लिए एक PDF फ़ाइल छोड़ें या चुनें।
स्वचालित निष्कर्षण: टूल सभी पृष्ठों को स्कैन करता है और हर एम्बेडेड इमेज ऑब्जेक्ट को निकालता है, उन्हें आयाम और फ़ाइल आकार जानकारी के साथ एक ग्रिड में प्रदर्शित करता है।
इमेज डाउनलोड करें: किसी भी इमेज पर क्लिक करके उसे व्यक्तिगत रूप से डाउनलोड करें, या निकाली गई सभी इमेजों को एक साथ डाउनलोड करने के लिए 'सभी को ZIP के रूप में डाउनलोड करें' का उपयोग करें।

PDF से इमेज क्यों निकालें?

PDF से इमेज निकालना सामग्री को पुनःप्रयोग करने, प्रस्तुतियों या वेबसाइटों में ग्राफ़िक्स का पुन: उपयोग करने, दृश्य सामग्री को संग्रहित करने, या पूरी PDF साझा किए बिना व्यक्तिगत इमेज साझा करने के लिए उपयोगी है। इमेज निष्कर्षण मूल गुणवत्ता को बनाए रखता है क्योंकि कोई पुन:प्रसंस्करण नहीं होता-केवल एम्बेडेड इमेज जैसे हैं वैसे ही निर्यात किए जाते हैं।

विशेषताएँ

पूर्ण निष्कर्षण: PDF में हर पृष्ठ से सभी एम्बेडेड इमेज ऑब्जेक्ट निकालता है।
गुणवत्ता संरक्षित: मूल इमेज फ़ॉर्मैट (PNG, JPG, TIFF, आदि) और गुणवत्ता बनाए रखी जाती है-कोई पुन:प्रसंस्करण या संपीडन नहीं।
इमेज प्रीव्यू: आयाम, फ़ॉर्मैट और फ़ाइल आकार जानकारी के साथ स्क्रॉल करने योग्य ग्रिड में सभी निकाली गई इमेज देखें।
व्यक्तिगत या थोक डाउनलोड: प्रत्येक इमेज को अलग-अलग डाउनलोड करें या सभी इमेज को ZIP आर्काइव के रूप में डाउनलोड करें।
मेटाडेटा प्रदर्शन: आसान संदर्भ के लिए प्रत्येक इमेज चौड़ाई, ऊंचाई, फ़ॉर्मैट और अनुमानित फ़ाइल आकार दिखाती है।
गोपनीयता: सभी प्रोसेसिंग आपके ब्राउज़र में स्थानीय रूप से होती है। फ़ाइलें कभी भी किसी सर्वर पर अपलोड नहीं होतीं।
तेज़: बिना प्रतीक्षा या कतारों के रीयल-टाइम निष्कर्षण।

अक्सर पूछे जाने वाले प्रश्न

क्या निष्कर्षण के दौरान इमेज की गुणवत्ता बनाई रखी जाती है?

हाँ। टूल पुन:प्रसंस्करण या पुनः संपीडन किए बिना मूल फ़ॉर्मैट में इमेज निकालता है। गुणवत्ता ठीक वैसी ही है जैसी यह PDF में एम्बेडेड थी।

कौन से इमेज फ़ॉर्मैट निकाले जा सकते हैं?

टूल उनके मूल एम्बेडेड फ़ॉर्मैट में इमेज निकालता है: PNG, JPG, TIFF, GIF, JPEG2000, और अन्य सामान्य फ़ॉर्मैट। निकाली गई फ़ाइलें अपना मूल फ़ॉर्मैट और गुणवत्ता बनाए रखती हैं।

क्या मैं डाउनलोड करने से पहले इमेज आयाम देख सकता हूँ?

हाँ। प्रीव्यू ग्रिड में प्रत्येक इमेज फ़ाइल फ़ॉर्मैट और अनुमानित फ़ाइल आकार के साथ पिक्सल में अपनी चौड़ाई और ऊंचाई प्रदर्शित करता है। यह आपको यह चुनने में मदद करता है कि कौन सी इमेज डाउनलोड करनी हैं।

क्या मैं व्यक्तिगत रूप से इमेज डाउनलोड कर सकता हूँ?

हाँ। इसे तुरंत डाउनलोड करने के लिए किसी भी इमेज पर डाउनलोड बटन क्लिक करें। या एक आर्काइव में सभी निकाली गई इमेज डाउनलोड करने के लिए 'सभी को ZIP के रूप में डाउनलोड करें' का उपयोग करें।

क्या यह पृष्ठभूमि या सजावट के रूप में उपयोग की गई इमेज निकालता है?

हाँ। टूल PDF के भीतर सभी एम्बेडेड इमेज ऑब्जेक्ट निकालता है, जिसमें सभी पृष्ठों में पृष्ठभूमि, सजावट, या एम्बेडेड ग्राफ़िक्स के रूप में उपयोग की गई इमेज शामिल हैं।

क्या मेरे PDF सर्वर पर अपलोड होते हैं?

नहीं. सारी एक्सट्रैक्शन PDF.js का उपयोग करके आपके ब्राउज़र में स्थानीय रूप से होती है। आपके PDF कभी आपके डिवाइस से बाहर नहीं जाते, जिससे पूर्ण गोपनीयता और सुरक्षा सुनिश्चित होती है।

फ़ाइल आकार की सीमा क्या है?

50 MB तक के PDF समर्थित हैं। निष्कर्षण की गति पृष्ठों की संख्या और एम्बेडेड इमेज की संख्या पर निर्भर करती है। कई इमेज वाली बड़ी PDF को प्रोसेस करने में कुछ क्षण लग सकते हैं।

क्या मैं मोबाइल पर इमेज निकाल सकता हूँ?

हाँ। यह टूल डेस्कटॉप, टैबलेट और मोबाइल ब्राउज़र पर काम करता है। एक PDF चुनने के लिए बस टैप करें और सभी इमेज निकाली जाएंगी और डाउनलोड के लिए प्रदर्शित होंगी।

"PDF से छवियाँ निकालना" का असली मतलब क्या है

रोज़मर्रा में बोली जाने वाली बात "PDF से छवियाँ निकालना" अस्पष्ट है, और यह अस्पष्टता इस बात के लिए मायने रखती है कि यह टूल असल में क्या देता है। एक ही शब्दों के पीछे दो सचमुच अलग प्रक्रियाएँ छिपी हैं। पहली है एम्बेड की गई छवि वस्तुएँ निकालना: दस्तावेज़ को टटोलना, लेखक द्वारा फ़ाइल में रखी गई हर Image XObject (या इनलाइन छवि) की पहचान करना, और हर एक को स्वतंत्र PNG के रूप में बाहर लिखना। आउटपुट वही है जो दस्तावेज़ के लेखक ने सचमुच फ़ाइल में रखा था, उसी रिज़ोल्यूशन पर जिस पर रखा था। दूसरी है पृष्ठों को छवियों के रूप में रेंडर करना: हर PDF पृष्ठ को चुने हुए DPI पर एक तस्वीर के रूप में रास्टराइज़ करना, जिसमें टेक्स्ट, वेक्टर आकृतियाँ और छवियाँ एक साथ चपटे पिक्सेल के रूप में पकड़ी जाती हैं। आउटपुट पृष्ठ की तस्वीर है, पृष्ठ के अंदर की तस्वीर नहीं।

यह टूल पहली तरह का काम करता है। यदि किसी 10-पृष्ठ दस्तावेज़ के पृष्ठ 2 और 7 पर तीन तस्वीरें एम्बेड हैं, तो यह तीन छवि फ़ाइलें बनाता है, दस पृष्ठ-छवियाँ नहीं। यदि आपको दूसरी तरह की चीज़ चाहिए, यानी पृष्ठ-को-छवि रेंडरिंग, तो PDF को इमेज में बदलें टूल का उपयोग करें। दोनों प्रक्रियाओं के बीच फ़र्क समझना उपयोगकर्ताओं के पहली बार आने पर होने वाला सबसे आम भ्रम है: "PDF to JPG" सेवाएँ आम तौर पर दूसरी तरह का काम करती हैं, और बहुत से लोग पहली चीज़ चाहते हुए उन तक पहुँच जाते हैं। आउटपुट की गिनती से ही फ़र्क पता चलता है: निष्कर्षण एम्बेड की गई छवियों की संख्या लौटाता है; पृष्ठ-रेंडर पृष्ठों की संख्या लौटाता है।

यह टूल कैसे काम करता है

यह टूल PDF.js चलाता है, जो Mozilla का शुद्ध JavaScript में लिखा PDF रेंडरर है और वही इंजन है जो Firefox के बिल्ट-इन PDF पूर्वावलोकन को चलाता है। जब आप कोई PDF चुनते हैं, ब्राउज़र का File API बाइट्स को बिना किसी नेटवर्क राउंड-ट्रिप के सीधे PDF.js को सौंप देता है। PDF.js क्रॉस-रेफ़रेंस तालिका, ट्रेलर और दस्तावेज़ कैटलॉग को एक Web Worker के अंदर पार्स करता है ताकि मुख्य थ्रेड प्रतिक्रियाशील बना रहे। हर पृष्ठ के लिए, टूल ऑपरेटर सूची मँगाता है और हर paintImageXObject और paintInlineImageXObject कॉल पर चलता है। हर छवि-ऑपरेटर के लिए वह असली Image XObject को PDF.js के ऑब्जेक्ट कैश से हल करता है, उसके फ़िल्टर और रंग-स्थान के अनुसार डीकोड करता है, बिटमैप को एक ऑफ़-स्क्रीन canvas पर खींचता है, और canvas को PNG के रूप में निर्यात करता है।

गैलरी दृश्य के लिए चौड़ाई, ऊँचाई और अनुमानित फ़ाइल आकार दर्ज किए जाते हैं। जब आप "सब कुछ ZIP के रूप में डाउनलोड करें" पर क्लिक करते हैं, JSZip हर निकाली गई छवि को स्मृति में एक ही संग्रह में बंडल कर देता है, और ब्राउज़र का डाउनलोड एंकर सेव कर देता है। इस पूरी प्रक्रिया का कोई हिस्सा नेटवर्क अनुरोध नहीं करता। आप इसे सीधे जाँच सकते हैं: PDF चुनने से पहले ब्राउज़र के डेवलपर टूल्स के नेटवर्क पैनल को खोलें, निष्कर्षण चलाएँ और देखें कि आपकी मशीन से कुछ भी बाहर नहीं जाता। PDF.js इंजन और JSZip लाइब्रेरी पहली बार आने पर एक ही बार डाउनलोड होते हैं और ब्राउज़र उन्हें कैश कर लेता है, इसलिए अगली बार लोडिंग तुरंत होती है और काम पूरी तरह ऑफ़लाइन चलता है।

PDF छवियों को कैसे रखते हैं

एक PDF फ़ाइल वस्तुओं का एक वृक्ष है। पृष्ठ-वृक्ष पृष्ठ-वस्तुओं की ओर इशारा करता है; हर पृष्ठ-वस्तु एक सामग्री-धारा (content stream) और एक संसाधन-शब्दकोश (resource dictionary) की ओर इशारा करती है। संसाधन-शब्दकोश की XObject प्रविष्टि छोटे नामों (जैसे Im1, Im2) को Image XObject धाराओं से जोड़ती है। सामग्री-धारा उन्हें Do ऑपरेटर से चित्रित करती है: q 200 0 0 150 50 300 cm /Im1 Do Q जैसा क्रम कहता है "रूपांतरण सेट करो, संसाधनों में से Im1 नाम की छवि बनाओ, रूपांतरण बहाल करो"। हर Image XObject में Width और Height (पिक्सेल आयाम), ColorSpace (हर घटक की व्याख्या), BitsPerComponent (1, 2, 4, 8 या 16) और Filter (बाइट्स को संकुचित करने वाली कोडेक श्रृंखला) होते हैं।

किसी निष्कर्षक के लिए Filter क्षेत्र सबसे महत्त्वपूर्ण है, क्योंकि यह तय करता है कि बाइट्स सीधे लिखे जा सकते हैं या पहले डीकोड करने पड़ेंगे। व्यवहार में छह फ़िल्टर मिलते हैं। DCTDecode बाइट्स को एक पूरी JPEG फ़ाइल की तरह संग्रह करता है, जिसे .jpg एक्सटेंशन के साथ सीधे लिखा जा सकता है; रंगीन PDF में लगभग 60 से 70 प्रतिशत छवियाँ इसी रूप में होती हैं। JPXDecode JPEG2000 है, उपभोक्ता दस्तावेज़ों में दुर्लभ लेकिन ऊँचे स्तर की प्रिंट पाइपलाइनों में मिलता है। CCITTFaxDecode एक-बिट श्वेत-श्याम स्कैन के लिए ग्रुप 3 या ग्रुप 4 फ़ैक्स संपीड़न है, स्कैन किए गए व्यावसायिक अभिलेखों में आम। JBIG2Decode अधिक कुशल उत्तराधिकारी है, जिसे Acrobat के "Reduce File Size" पास और ABBYY FineReader उपयोग करते हैं। FlateDecode zlib-संपीड़ित कच्चा पिक्सेल डेटा है, ग्राफ़िक्स, स्क्रीनशॉट और वेब-पहले लेखन-उपकरणों से बने PDF में आम। RunLengthDecode एक साधारण RLE है, ज़्यादातर पुराने या हाथ से बने PDF में।

इनलाइन छवियाँ, चूक जाने वाला आसान मामला

PDF मानक छोटी छवियों को बिना नामित XObject बने सीधे किसी पृष्ठ की सामग्री-धारा में BI (begin image), ID (image data) और EI (end image) ऑपरेटरों के बीच एम्बेड करने की अनुमति देता है। यह 1990 के दशक के शुरू का एक अनुकूलन था, जो लोगो, आइकन और बुलेट जैसे बहुत छोटे ग्राफ़िक्स के लिए था, ताकि कुछ सौ बाइट की छवि के लिए अलग वस्तु का बोझ न उठाना पड़े। बाकी रूप Image XObject जैसा ही है: वही फ़िल्टर, रंग-स्थान और आयाम क्षेत्र, संक्षिप्त रूप में लिखे हुए।

कई "छवि-निष्कर्षण" टूल इनलाइन छवियों को पूरी तरह चूक जाते हैं क्योंकि वे सिर्फ़ संसाधन-शब्दकोश की XObject तालिका तक चलकर रुक जाते हैं। यह टूल पृष्ठ की ऑपरेटर-सूची पर चलता है और उन्हें paintInlineImageXObject के ज़रिए पकड़ लेता है। व्यावहारिक अर्थ: हेडर में कंपनी का लोगो रखने वाले PDF (अक्सर इनलाइन) और पुराने लेखन-उपकरणों से बने PDF, जो आइकनों के लिए इनलाइन छवियों का इस्तेमाल करते हैं, सरल XObject-वॉक के मुक़ाबले ज़्यादा छवियाँ लौटाते हैं। यदि आप किसी दूसरे टूल से निकाली गई संख्या से तुलना कर रहे हैं, तो यह अंतर का एक कारण है। नीचे बताए गए अन्य कारणों में सजावटी ग्राफ़िक्स, स्टेंसिल मास्क और वॉटरमार्क का सम्मिलन है, जिन्हें कुछ टूल डिफ़ॉल्ट रूप से छान देते हैं।

सॉफ़्ट मास्क, स्टेंसिल और पारदर्शिता

PDF में छवि-पारदर्शिता कभी-कभार ही स्वयं छवि के भीतर अंकित होती है। इसके बजाय, पृष्ठ रंगीन छवि को एक अलग एकल-चैनल "सॉफ़्ट मास्क" (XObject शब्दकोश की SMask प्रविष्टि) के साथ संयोजित करता है। रीडर में दिखने वाला परिणाम यही संयोजन है; अकेले निकाली गई रंगीन छवि अपारदर्शी होती है। दृश्य पुनः-उपयोग के लिए निकाली गई छवियों में यह अप्रत्याशित नतीजे पैदा कर सकता है: SMask का प्रयोग करने वाले PDF से निकाला गया लोगो पारदर्शी पृष्ठभूमि वाले PNG के बजाय अपारदर्शी आयत जैसा दिख सकता है। मौजूदा व्यवहार है कि रंगीन Image XObject को SMask के बिना ही निकाला जाए, जो कमांड-लाइन पर pdfimages -png के व्यवहार से और हमारे परखे हुए हर क्लाउड निष्कर्षण-सेवा के व्यवहार से मेल खाता है।

एक संबंधित संकल्पना ImageMask ध्वज है। जब ImageMask true होता है, तो बाइट्स पिक्सेल डेटा नहीं हैं; वे एक-बिट स्टेंसिल हैं जो तय करते हैं कि वर्तमान भरण रंग कहाँ लगाया जाएगा। अलग से ImageMask निकालने पर उपयोगी तस्वीर के बजाय श्वेत-श्याम सिल्हूट मिलता है। टूल पूर्णता के लिए उन्हें गैलरी में दिखाता है, लेकिन सिल्हूट में विशेष दिलचस्पी न हो तो उनकी उपयोगिता कम है। आयामों के अनुसार छाँटें और दृश्य में भीड़ बढ़ाने वाले छोटे स्टेंसिलों को नज़रअंदाज़ कर दें। सॉफ़्ट मास्क को अल्फा-वाहक PNG में पुनः-संयोजित करना इच्छा-सूची में है पर फ़िलहाल डेस्कटॉप उपकरणों के लिए छोड़ा गया है, क्योंकि यह कभी-कभी विनाशकारी होता है: पुनः-संयोजन पृष्ठभूमि के रंग को परिणाम में पका देता है, जो आप शायद चाहते हैं या नहीं चाहते।

रंग-स्थान और आउटपुट पर उनका असर

2026 में अधिकांश PDF DeviceRGB (sRGB जैसा) या DeviceCMYK का प्रयोग करते हैं। PDF.js दोनों को पारदर्शी ढंग से डीकोड करता है, canvas पर चित्रित करने से पहले CMYK को RGB में बदल देता है। इसलिए निकाला हुआ PNG हमेशा RGB ही होगा, भले ही स्रोत CMYK रहा हो। केवल दृश्य पुनः-उपयोग के लिए यह सही है: CMYK छवि प्रिंट के लिए होती है और बिना रूपांतरण के किसी वेबसाइट पर ठीक से नहीं दिखेगी। प्रिंट पुनरुत्पादन के लिए रूपांतरण सन्निकट होता है, क्योंकि गंतव्य canvas पर कोई प्रिंट प्रोफ़ाइल नहीं जुड़ी होती। प्रिंट लक्ष्य रखने वालों को असली PDF रखना चाहिए और निष्कर्षण के राउंड-ट्रिप से बचना चाहिए; जब प्रिंट पाइपलाइन CMYK छवि को सीधे पढ़ती है, तब रंग-निष्ठा बेहतर रहेगी।

PDF छवियों से जुड़े ICCBased रंग-प्रोफ़ाइलों का PDF.js डीकोड के दौरान सम्मान करता है, इसलिए निकाला हुआ PNG मानक देखने की स्थितियों में अपेक्षित रूप के निकट रहता है। इंडेक्स्ड रंग-स्थानों (पैलेट-छवियाँ, पुरानी GIF आयात की 256-रंग वाली विशिष्ट स्थिति) को निष्कर्षण के दौरान डी-इंडेक्स कर दिया जाता है, जिससे पैलेट-आधारित के बजाय पूर्ण-रंग PNG बनता है। दृश्य पुनः-उपयोग के लिए यह सही व्यवहार है, पर इसका मतलब है कि निकाले गए PNG का आकार PDF के भीतर मूल इंडेक्स्ड छवि के आकार से बड़ा हो सकता है। canvas-आधारित पाइपलाइन में यह समझौता अवश्यंभावी है, और हम सघनता पर विश्वसनीयता को तरजीह देते हैं; जिन्हें सबसे छोटी फ़ाइलें चाहिए, वे बाद में आउटपुट को छवि कम्प्रेसर से गुज़ार सकते हैं।

छवि-निष्कर्षण को प्रेरित करने वाले असली कार्यप्रवाह

स्लाइड या वेब के लिए ग्राफ़िक्स का पुनर्उपयोग। कोई डिज़ाइनर या मार्केटर ग्राहक से PDF रूप में डिलिवरेबल पाता है और उसकी तस्वीरें तथा डायग्राम स्लाइड-डेक, वेबसाइट के पुनर्निर्माण या सोशल-मीडिया पोस्ट के लिए चाहिए। Acrobat का दायाँ-क्लिक "छवि सुरक्षित करें" एक बार में एक छवि के साथ चलता है; 40 छवियों वाली 60-पृष्ठ रिपोर्ट के लिए वह आधे घंटे का क्लिक है, जबकि ब्राउज़र टैब में एक बार खींचकर डालने और एक ZIP डाउनलोड से काम चल जाता है।
छवि-सूची बनाना। अभिलेखागार-कर्मी, पुस्तकालयाध्यक्ष या सामग्री-ऑडिटर के पास PDF का संग्रह होता है और उन्हें कैटलॉगिंग, alt-टेक्स्ट लिखने या दृश्य खोज-सूचकांक बनाने के लिए छवियाँ चाहिए होती हैं। थोक निष्कर्षण के बाद ZIP डाउनलोड मानक प्रवाह है; एक बार ब्राउज़र पक्ष यह दिखा दे कि निष्कर्षण अपेक्षित परिणाम लौटा रहा है, तो डेस्कटॉप पर फ़ोल्डर-वॉक स्क्रिप्ट से जोड़ना आसान हो जाता है।
PDF के रूप में दिए गए फ़ोटोग्राफ़ी पोर्टफ़ोलियो। फ़ोटोग्राफ़र कभी-कभार ग्राहक का काम अलग-अलग फ़ाइलों के बजाय PDF गैलरी के रूप में देते हैं, ख़ासकर पोर्ट्रेट सत्रों और कार्यक्रम कवरेज के लिए। ग्राहक को अलग फ़ाइलें चाहिए। निष्कर्षण उन्हें एम्बेड किए गए रिज़ोल्यूशन पर लौटाता है, जो आम तौर पर वही रिज़ोल्यूशन है जो फ़ोटोग्राफ़र ने मुद्रित संस्करण के लिए चुना था।
समस्या वाले PDF से छवियाँ बचाना। कोई PDF रीडर में ठीक से नहीं खुलता या अनियमित व्यवहार करता है, पर भीतरी ढाँचा इतना सुरक्षित है कि PDF.js संसाधन-शब्दकोशों को पार्स कर सकता है। दस्तावेज़ चाहे जैसा भी बर्ताव करे, निष्कर्षण एम्बेड की गई छवियों को बचा लेता है। यह उन फ़ाइलों के लिए आम बचाव-परिदृश्य है जो रास्ते में दूषित हो गईं या मेल न खाते हस्ताक्षरों के साथ सहेजी गईं।
फ़ोरेंसिक और कानूनी समीक्षा। डिस्कवरी या प्रमाण-कैटलॉगिंग की तैयारी कर रहे समीक्षकों को दस्तावेज़-सेट की हर छवि सूचीबद्ध और निर्यात-योग्य चाहिए होती है। "सभी एम्बेड की गई छवियाँ" वाली गारंटी मायने रखती है: एक भी छूट जाना समस्या है। ऑपरेटर-सूची पर आधारित निष्कर्षण (मात्र XObject-तालिका पर नहीं) सही तरीक़ा है क्योंकि वह इनलाइन छवियों को भी पकड़ता है, जिन्हें कुछ पाइपलाइनें चुपचाप गिरा देती हैं।
OCR का पूर्व-प्रसंस्करण। कुछ OCR पाइपलाइनें रेंडर किए गए पृष्ठों के बजाय निकाली हुई छवियों पर बेहतर काम करती हैं, ख़ासकर तब जब स्रोत छवियाँ निचले रिज़ोल्यूशन की पृष्ठ-संरचना में एम्बेड किए गए उच्च-रिज़ोल्यूशन स्कैन हों। मूल रिज़ोल्यूशन पर निष्कर्षण उन OCR-योग्य ब्योरों को बचाता है, जिन्हें 150 या 300 DPI पर पृष्ठ रेंडर करने से खो दिया जाएगा।
अकादमिक और पत्रकारिता-संबंधी शोध। PDF में मौजूद चार्ट, तस्वीरें और डायग्राम निष्पक्ष उपयोग के उद्धरण, मूल स्रोतों के विरुद्ध तथ्य-जाँच, या अलग-अलग दस्तावेज़ों की तुलना के लिए निकाले जाते हैं। शोधकर्ता प्रायः एम्बेड की गई छवि का मूल रिज़ोल्यूशन भी चाहते हैं ताकि छेड़छाड़ या संपीड़न-कलाकृतियों का पता चल सके, जिन्हें पृष्ठ-रेंडरिंग ढक देती।

आम मुश्किलें और उनके अर्थ

"टूल ने मेरी अपेक्षा से ज़्यादा छवियाँ निकालीं।" PDF में अक्सर ऐसी छवियाँ होती हैं जो सीधे नज़र नहीं आतीं: कई पृष्ठों पर दोहराई गई सजावटी पृष्ठभूमियाँ, वॉटरमार्क, हेडर-फ़ुटर के अलंकरण, पारदर्शिता मास्क (जो तकनीकी रूप से Image XObject हैं) और चेकबॉक्स जैसी छोटी इनलाइन ग्राफ़िक्स। पूर्ण निष्कर्षण ये सब लौटाता है। गैलरी को आयामों के अनुसार छाँटें और अगर आपको सिर्फ़ मुख्य तस्वीरें चाहिए तो छोटे थंबनेल नज़रअंदाज़ कर दें।
"टूल ने मेरी अपेक्षा से कम छवियाँ निकालीं।" अधिकांश समय "लापता" सामग्री दरअसल छवि नहीं बल्कि वेक्टर चित्रांकन होती है: रास्टर के बजाय ड्राइंग ऑपरेटरों के रूप में एम्बेड किया गया Adobe Illustrator निर्यात। वेक्टर सामग्री Image XObject नहीं है और छवि के रूप में नहीं निकाली जा सकती। उसे रास्टर के रूप में पाने का एकमात्र तरीक़ा PDF को इमेज में बदलें टूल से पृष्ठ रेंडर करना है। दूसरा मामला छवि-जैसा दिखने वाला टेक्स्ट है (फ़ॉन्ट से रेंडर किया गया शैलीबद्ध शीर्षक); टेक्स्ट भी छवि नहीं है।
"निकाली हुई छवि अपारदर्शी है, पर दस्तावेज़ में उसकी पृष्ठभूमि पारदर्शी थी।" दस्तावेज़ पारदर्शिता के लिए अलग SMask का इस्तेमाल करता है; अकेला रंगीन XObject अपारदर्शी है। आउटपुट में सॉफ़्ट मास्क को पुनः-संयोजित करने का काम डेस्कटॉप उपकरणों पर छोड़ा गया है, क्योंकि वह कभी-कभी विनाशकारी होता है (पृष्ठभूमि के रंग को छवि में पका देता है)। फ़िलहाल, PNG को किसी ऐसे उपकरण में संपादित करें जो स्वचालित पृष्ठभूमि-हटाव समर्थन करता है, या यदि आपको अल्फा-आकार चाहिए तो गैलरी से सॉफ़्ट मास्क अलग से लें।
"कुछ छवियाँ कम रिज़ोल्यूशन की दिखती हैं।" फ़ाइल का आकार सँभालने के लिए PDF एम्बेड करते समय अक्सर छवियों का डाउनसैम्पल कर देते हैं। 4000 पिक्सेल चौड़ी कोई तस्वीर किसी दस्तावेज़ में आयात कर के Acrobat के "Reduce File Size" से गुज़र चुकी हो, तो वह 800 पिक्सेल चौड़ी संग्रहित रह सकती है। निष्कर्षण संग्रहित रिज़ोल्यूशन लौटाता है, मूल नहीं। मूल कैमरा-रिज़ोल्यूशन वाली फ़ाइल केवल स्रोत से बहाल की जा सकती है, PDF से नहीं।
"दो निकाली हुई छवियाँ किसी बड़ी छवि की टाइलों जैसी लगती हैं।" कुछ PDF जनरेटर बड़ी छवियों को टाइलों की ग्रिड में काट देते हैं, ख़ासकर तब जब स्रोत किसी पृष्ठ-आकार सीमा से बड़ा हो। टाइलें अलग-अलग XObject के रूप में दिखती हैं; पूरी छवि को फिर से बनाने के लिए पृष्ठ-संरचना की जानकारी रखने वाले डेस्कटॉप उपकरण में उन्हें जोड़ना पड़ता है। 2026 में यह कम मिलता है, क्योंकि आधुनिक PDF लाइब्रेरियाँ डिफ़ॉल्ट रूप से टाइलिंग नहीं करतीं, पर पुराने दस्तावेज़ अभी भी कभी-कभार ऐसा दिखाते हैं।
"PDF में 100 पृष्ठ हैं पर सिर्फ़ कुछ ही छवियाँ निकलीं।" कई PDF पूरी तरह टेक्स्ट और वेक्टर सामग्री से बने होते हैं। शुद्ध-टेक्स्ट दस्तावेज़ में पृष्ठों की संख्या जो भी हो, एम्बेड की गई छवियाँ शून्य होती हैं। यदि आप हर पृष्ठ को छवि के रूप में चाहते थे, तो PDF को इमेज में बदलें टूल इस्तेमाल करें, जो हर पृष्ठ को एक PNG या JPG के रूप में रेंडर करता है और टेक्स्ट तथा वेक्टर दोनों को एक साथ पकड़ता है।
"निष्कर्षण के बाद CMYK छवि के रंग ग़लत लगते हैं।" सख़्त अर्थ में नहीं; निष्कर्षण स्क्रीन-प्रदर्शन के लिए CMYK को RGB में बदलता है, और स्क्रीन पर प्रस्तुति सन्निकट होती है क्योंकि गंतव्य पर कोई प्रिंट प्रोफ़ाइल नहीं होती। प्रिंट-निष्ठ पुनरुत्पादन के लिए PNG-निष्कर्षण से राउंड-ट्रिप मत करें। मूल PDF रखें और ऐसा प्रिंट प्रवाह उपयोग करें जो CMYK को सीधे पढ़े।

केवल-ब्राउज़र बनाम क्लाउड निष्कर्षण

खोज परिणामों के ऊपरी हिस्से में रहने वाली क्लाउड छवि-निष्कर्षण सेवाएँ (Smallpdf, ILovePDF, PDF24 web, Sejda, CleverPDF) सभी PDF को अपने सर्वर पर अपलोड करती हैं, सर्वर-तरफ़ डीकोड करती हैं और एक ZIP आपके ब्राउज़र को वापस देती हैं। उनकी निजता-नीतियाँ आम तौर पर एक घंटे के भीतर हटाने और परिवहन में TLS की प्रतिबद्धता देती हैं, और बड़े संचालकों पर व्यापारिक प्रतिष्ठा का दबाव वास्तविक है। पर इनमें से कोई बात इस सरल संरचनात्मक तथ्य को नहीं बदलती कि आपका दस्तावेज़ और उसकी हर छवि किसी और के भंडारण पर थोड़े समय रही और उनके सॉफ़्टवेयर से होकर गुज़री। संवेदनशील सामग्री (चिकित्सीय रिकॉर्ड, वित्तीय विवरण, आंतरिक मसौदे, NDA से ढका कुछ भी) के लिए सबसे अच्छा रुख यह है कि फ़ाइल को शुरू से ही उपकरण से बाहर न जाने दिया जाए।

यह टूल पूरी तरह ब्राउज़र टैब में चलता है। PDF.js PDF को स्थानीय रूप से पार्स करता है, छवियाँ स्थानीय रूप से डीकोड करता है, उन्हें स्थानीय canvas पर लिखता है और स्थानीय डाउनलोड शुरू करता है। पृष्ठ के आरंभिक लोड के बाद कोई नेटवर्क अनुरोध नहीं चलता। इसका प्रमाण किसी भी ब्राउज़र में उपलब्ध है: निष्कर्षण क्लिक करने से पहले डेवलपर टूल्स का नेटवर्क पैनल खोलें, निष्कर्षण चलाएँ और देखें कि आपकी फ़ाइल या छवियों की सामग्री वाला कोई अनुरोध नहीं चलता। ब्राउज़र में संसाधन की क़ीमत यह है कि बहुत बड़े PDF (सैकड़ों मेगाबाइट) किसी तेज़ सर्वर की तुलना में धीमे होते हैं, पर निजता की स्थिति में मूलभूत अंतर है। इस टूल में 50 MB की सीमा मोबाइल उपकरणों को हीप-कमी से बचाने के लिए है, इसलिए नहीं कि वास्तुकला डेस्कटॉप ब्राउज़रों पर बड़ी फ़ाइलें नहीं सँभाल सकती।

और भी अक्सर पूछे जाने वाले प्रश्न

यह "PDF to JPG" या "PDF to image" से कैसे अलग है?

दो सचमुच अलग प्रक्रियाएँ। "PDF to image" हर पृष्ठ को एक तस्वीर में रास्टराइज़ करता है, टेक्स्ट, वेक्टर और छवियों को चपटे पिक्सेल के रूप में पकड़ कर; आउटपुट पृष्ठ की तस्वीर है। "Extract images" लेखक द्वारा फ़ाइल में एम्बेड की गई अलग-अलग छवि-वस्तुएँ निकालता है; आउटपुट पृष्ठ के अंदर की तस्वीर है। 10 पृष्ठों की किसी रिपोर्ट के पृष्ठ 2 और 7 पर तीन तस्वीरों के मामले में, "PDF to image" दस फ़ाइलें लौटाता है (हर पृष्ठ की एक); "Extract images" तीन लौटाता है (वे तीन तस्वीरें)। पहली तरह के काम के लिए PDF को इमेज में बदलें टूल इस्तेमाल करें।

मूल छवियाँ JPEG थीं, फिर निकाली हुई PNG क्यों होती हैं?

मौजूदा पाइपलाइन हर छवि को HTML canvas से गुज़ारती है, जिससे डीकोड किया हुआ बिटमैप मिलता है, और फिर उस बिटमैप को PNG में फिर से एनकोड करती है ताकि जहाँ पारदर्शिता हो, उसे संरक्षित रखा जा सके। PNG हानिरहित है: JPEG की क्वांटाइज़ेशन हानियाँ बिटमैप में पहले से पकी हुई हैं और बिल्कुल वैसी ही सुरक्षित रहती हैं, बिना दूसरे क्वांटाइज़ेशन दौर के। आउटपुट PNG फ़ाइलें मूल JPEG बाइट्स से बड़ी होती हैं, पर गुणवत्ता घटती नहीं। एक भविष्य का मोड जो सीधा कच्चा JPEG बाइट लिखेगा (वैसा ही जैसा pdfimages -j) इच्छा-सूची में है; उसका लाभ छोटी फ़ाइलें है, बेहतर गुणवत्ता नहीं।

क्या टूल हर छवि ढूँढ़ लेता है, चाहे वह पृष्ठभूमि के रूप में हो या इनलाइन?

हाँ। टूल पृष्ठ की ऑपरेटर-सूची पर चलता है और नामित Image XObjects (चित्रांकन ऑपरेटर Do) तथा BI, ID, EI ऑपरेटरों के बीच सामग्री-धारा में सीधे एम्बेड की गई इनलाइन छवियाँ, दोनों को हल कर लेता है। बहुत से निष्कर्षण टूल इनलाइन छवियाँ चूक जाते हैं क्योंकि वे केवल XObject तालिका तक चलते हैं; यह टूल नहीं। स्टेंसिल मास्क (ImageMask true) भी रिपोर्ट किए जाते हैं, हालाँकि वे तस्वीरों के बजाय सिल्हूट हैं और सीमित मामलों में ही उपयोगी हैं।

मैं कितनी बड़ी PDF संसाधित कर सकता हूँ?

मौजूदा कार्यान्वयन में 50 MB तक। यह सीमा मोबाइल उपकरणों पर ब्राउज़र की स्मृति-दबाव से तय होती है: बड़े PDF एक ही समय पर पार्स किया हुआ दस्तावेज़ और डीकोड की गई छवियाँ स्मृति में रखते हैं, और उपकरण के उपलब्ध हीप से ज़्यादा होने पर OS टैब को बंद कर देता है। डेस्कटॉप ब्राउज़र आम तौर पर इससे काफ़ी अधिक सँभाल लेते हैं; यह सीमा सुरक्षा के लिए सावधानीवश रखी गई है। बहुत बड़े दस्तावेज़ों के लिए poppler-utils का डेस्कटॉप pdfimages -all सही उपकरण है।

क्या निष्कर्षण से छवियों का कॉपीराइट बदलता है?

नहीं। PDF में एम्बेड की गई छवियाँ अपनी पूर्व अधिकारिता बरकरार रखती हैं, चाहे वह दस्तावेज़ के लेखक, फ़ोटोग्राफ़र या लाइसेंस-धारक की हो। जिस PDF तक आपका वैध पहुँच है, उससे छवि निकालना यंत्रवत् रूप से उसका स्क्रीनशॉट लेने जैसा है; निकाली हुई फ़ाइल के साथ आप क्या करते हैं, यह स्रोत PDF जैसी ही कॉपीराइट नियमों के अधीन है। निजी संदर्भ हेतु उपयोग आम तौर पर विवादास्पद नहीं है; पुनर्वितरण या व्यावसायिक उपयोग स्रोत की लाइसेंस-शर्तों पर निर्भर है।

क्या कोई डेस्कटॉप या कमांड-लाइन समकक्ष है?

हाँ, दो दमदार। poppler-utils का pdfimages सबसे क़रीबी मेल है: pdfimages -all input.pdf prefix- हर छवि को जहाँ तक हो सके मूल एनकोडिंग में निकालता है। macOS पर brew install poppler से, Debian या Ubuntu पर apt install poppler-utils से लगाएँ, या परियोजना की साइट से Windows के लिए बाइनरी डाउनलोड करें। दूसरा MuPDF का mutool extract है, जो छवियाँ और फ़ॉन्ट साथ-साथ निकालता है। दोनों स्थानीय, मुफ़्त और अच्छी तरह रखरखाव वाले हैं।