मुफ़्त PDF मेटाडेटा एडिटर
PDF मेटाडेटा संपादित करें, शीर्षक, लेखक, विषय, कीवर्ड, आदि। पूरी तरह आपके ब्राउज़र में चलता है।
PDF मेटाडेटा क्या है?
PDF मेटाडेटा दस्तावेज़ के बारे में जानकारी है जो दृश्य सामग्री में प्रकट नहीं होती। इसमें शीर्षक, लेखक, विषय आदि शामिल हैं।
PDF मेटाडेटा क्यों संपादित करें?
- संगठन · बेहतर वर्गीकरण और खोज के लिए अपने दस्तावेज़ों में सुसंगत मेटाडेटा सेट करें।
- व्यावसायिकता · सुनिश्चित करें कि आपके दस्तावेज़ सही लेखक और शीर्षक दिखाते हैं।
- SEO और खोज · मेटाडेटा में कीवर्ड खोजयोग्यता में मदद करते हैं।
- गुणों को सुधारें · ग़लत या लापता लेखक, शीर्षक या विषय जानकारी ठीक करें।
अक्सर पूछे जाने वाले प्रश्न
क्या मेटाडेटा संपादित करने से PDF सामग्री बदलती है?
नहीं। केवल मेटाडेटा संशोधित होता है। PDF की सामग्री, पेज और लेआउट बिल्कुल अपरिवर्तित रहते हैं।
क्या मैं एन्क्रिप्टेड PDF का मेटाडेटा संपादित कर सकता हूँ?
यदि PDF पासवर्ड-संरक्षित है, तो आप इस टूल के साथ इसके मेटाडेटा को संपादित नहीं कर सकते। फ़ाइल को पहले अनलॉक करना होगा।
फ़ाइल आकार की सीमा क्या है?
यह टूल 10 MB तक PDF का समर्थन करता है। बड़ी फ़ाइलें प्रसंस्करण में अधिक समय ले सकती हैं।
PDF metadata वास्तव में क्या है
एक PDF file document-level metadata एक साथ दो जगहों पर carry कर सकती है। Original mechanism, PDF 1.0 (1993) से present, Document Information Dictionary है (जिसे «DocInfo» या /Info कहते हैं): PDF trailer से referenced एक key/value object। PDF 1.4 (2001) ने एक दूसरा, richer mechanism add किया, एक XMP metadata stream, एक XML packet (Adobe's eXtensible Metadata Platform के अनुरूप RDF/XML) जो document catalog से attached एक stream object के रूप में embedded है। XMP 2012 में एक open ISO standard बना (ISO 16684-1)।
दोनों stores same नहीं हैं और disagree हो सकते हैं। Adobe का reference और ISO 32000 standards दोनों कहते हैं कि XMP present होने पर preferred है, और DocInfo को legacy mirror की तरह treat किया जाना चाहिए। ISO 32000-2 (PDF 2.0) में, older DocInfo dictionary CreationDate और ModDate को छोड़कर सब कुछ के लिए formally deprecated है (जिन्हें signature handlers अभी भी use करते हैं)। Practice में, लगभग हर reader (Adobe Acrobat, Foxit, macOS पर Preview, browser viewers) default रूप से DocInfo read करता है और केवल copyright जैसे fields के लिए XMP पर fall back करता है जिन्हें DocInfo ने कभी support नहीं किया।
Standard DocInfo fields हैं Title, Author, Subject, Keywords, Creator (वह application जिसने document originate किया, जैसे «Microsoft Word»), Producer (वह application जिसने actual PDF produce किया, जैसे «Adobe PDF Library 17.0»), CreationDate, ModDate (PDF date format में जैसे D:20240315093000-04'00'), और Trapped। XMP fields को namespaces में organize करता है: Dublin Core के dc:title, dc:creator, dc:rights, dc:language; XMP-MM के DocumentID, InstanceID, और History editing log; PDF/A और PDF/UA conformance markers; और कोई भी custom namespaces जो कोई tool add करना चाहे। यह editor सबसे अधिक use होने वाले DocInfo fields को directly expose करता है; XMP-only fields के लिए एक more specialised editor की ज़रूरत है।
एक संक्षिप्त इतिहास
PDF John Warnock के 1991 के internal Adobe memo («Camelot» paper) से शुरू हुआ, जिसमें एक portable document format propose किया गया था जो devices भर visual fidelity preserve करे। Adobe ने 1993 में Acrobat 1.0 के साथ PDF 1.0 ship किया; DocInfo dictionary पहले दिन से वहां था। 1990s और early 2000s के दौरान format ने encryption, hyperlinks, forms, JavaScript, transparency, tagged-PDF accessibility (PDF 1.4, 2001), और XMP metadata mechanism (also PDF 1.4) add किए। PDF/A (वह archival subset जो embedded XMP mandate करता है और encryption forbid करता है) 2005 में ISO 19005-1 के रूप में ratify हुआ। Adobe ने 2008 में PDF को ISO को transfer किया, जहां PDF 1.7 ISO 32000-1:2008 बना। ISO 32000-2:2017 ने PDF 2.0 publish किया, जिसमें major metadata change XMP के favour में DocInfo का deprecation था। 2020 revision और April 2023 में PDF Association का spec का free release इसका मतलब है कि standard अब openly accessible है।
Privacy problem, PDFs क्या leak करती हैं
Typical office software द्वारा create किया गया एक PDF अपने provenance के बारे में अधिकांश users की realize करने से substantially अधिक broadcast करता है। एक single PDF से आप generally extract कर सकते हैं:
- Author का full name। Microsoft Word
Authoruser के Office account या install time पर registered Windows username से write करता है। LibreOffice user-data settings से user का first/last name write करता है। macOS पर Pages system «Full Name» use करता है। उनमें से किसी से भी saved-as PDF automatically embedded value inherit करता है। - Full editing history। XMP का
xmpMM:Historyएक timestamp, software name, और instance UUID के साथ हर save और conversion event record करता है, document का एक partial revision log produce करता है। - Software identification down to version और build।
Producerfield typically read होता है जैसे «Microsoft® Word for Microsoft 365» या «Adobe PDF Library 17.00.6» या «Skia/PDF m120» (Chrome का print-to-PDF)। यह workstation OS और patch level को fingerprint करता है। - Creation timestamp + modification timestamp + उनके बीच का gap। 4-second gap print-to-PDF suggest करता है; 45-minute gap substantial editing suggest करता है। ये मिलकर establish कर सकते हैं कि document कब, कहाँ और किसके द्वारा authored था।
- Embedded image EXIF। जब EXIF GPS coordinates carry करने वाली एक image को Word या InDesign document में drag करके PDF में export किया जाता है, तो underlying image stream अक्सर EXIF tags retain करती है, जिसमें latitude और longitude शामिल हैं। ExifTool उन्हें «embedded» images से भी pull out करेगा।
- Track-changes annotations। «Show Markup» enabled के साथ Word से export किए गए PDFs annotation streams में reviewer initials और timestamps embed करते हैं (technically content rather than metadata, लेकिन अक्सर तब तक invisible जब तक reader comments panel expand न करे)।
उल्लेखनीय वास्तविक मामले
- Manafort court filing (January 2019): Paul Manafort के defence attorneys ने text पर PDF redaction rectangles draw करके एक court document file किया। Text itself content stream में untouched था और reporters द्वारा basic copy-paste use करके hours के भीतर extract किया गया, यह expose करते हुए कि Manafort ने US polling data एक Russian intelligence-linked associate के साथ share किया था। Accompanying metadata ने law-firm machine और उसे produce करने वाले software को भी name किया।
- UK government «dodgy dossier» (February 2003): document «Iraq, Its Infrastructure of Concealment, Deception and Intimidation» में editing-history metadata था जिसने चार authors को name किया, जिनमें एक US graduate student शामिल था जिसकी 2002 की thesis copy-paste की गई थी। Word document का hidden authorship trail smoking gun था।
- TSA security manual (December 2009): TSA ने अपनी passenger-screening Standard Operating Procedures का एक redacted version publish किया। Redactions एक PDF में original text के ऊपर image overlays थे; underlying text extractable था। Full document, जिसमें उन allied governments के नाम शामिल थे जिनके passport-holders को elevated screening मिलती थी, leak हो गया।
- «Author: opposing-counsel firm name»: law firms में repeated incidents जहां outgoing PDF briefs
Authorfield में opposing-counsel firm name include करती हैं, क्योंकि किसी ने discovery PDF से copy-paste करके new Word document में किया और destination document ने source का author inherit किया। कई firms अब किसी भी external send से पहले Word का «Document Inspector» या Acrobat का «Sanitize Document» require करती हैं।
इस tool का honest scope
यह editor आपको standard DocInfo fields view और overwrite करने देता है। यह externally document भेजने से पहले author names clean करने, document-management system को confuse कर रहे गलत title metadata को fix करने, या press release से workstation fingerprint strip करने के लिए genuinely useful है। यह एक complete sanitiser नहीं है। Specifically:
- Embedded photos के अंदर Image EXIF अभी भी GPS coordinates और camera details carry कर सकता है।
- Track-changes और reviewer comments annotations के रूप में stored remove नहीं होते।
- «Redaction» rectangles के नीचे hidden text अभी भी extractable है, text पर black rectangle draw करने से PDF के content stream से text remove नहीं होता। यह accidental disclosure का सबसे common source है।
xmpMM:Historyediting log XMP stream में necessarily clear नहीं होता।- Embedded font subsets originating workstation को identify कर सकते हैं यदि unusual fonts use किए गए हों।
- Printer tracking dots (yellow microdot patterns जो अधिकांश colour laser printers embed करते हैं) content-level हैं और metadata editing से unaffected हैं, Reality Winner case (June 2017) इन्हीं पर hinged था।
एक sensitive document पर complete sanitisation pass के लिए, सही tools हैं Adobe Acrobat Pro का «Sanitize Document» command, open-source cpdf command-line utility का -remove-metadata option, या ExifTool का -all= directive followed by manual inspection। Sensitive workflows अक्सर original को scrub करने की कोशिश करने के बजाय extracted plain text से document re-create करते हैं।
Metadata view करने के tools
- Adobe Acrobat: File → Properties। DocInfo fields और XMP packet के लिए एक separate «Additional Metadata» panel show करता है।
- ExifTool (Phil Harvey), command-line gold standard।
exiftool file.pdfसब कुछ print करता है;exiftool -all= file.pdfसब कुछ strip करता है। - pdfinfo (poppler-utils का हिस्सा), DocInfo plus page-level details का quick CLI dump।
- pdf.js / PDF.js (वह library जो Firefox PDFs render करने के लिए use करता है) browser-side reading के लिए
doc.getMetadata()के माध्यम से metadata expose करता है। - pdf-lib: वह JavaScript library जो इस tool के edit pass को power करती है;
setTitle(),setAuthor(), आदि expose करती है, और एक fully-conformant PDF वापस write करती है।
इसके लिए कब reach करें
- Author/creator names clean करना document को अपने organisation के बाहर भेजने से पहले।
- Consistent title metadata set करना उन documents के एक batch के लिए जो document-management system या library catalogue में end up होंगे।
- Keywords add करना internal full-text-search systems के लिए जो उन्हें discovery boost के रूप में use करते हैं।
- गलत title fix करना जब «save-as PDF» ने एक misleading filename inherit किया हो।
- Copyright / licence assert करना
Authorऔर (XMP handle करने वाले tools के लिए)dc:rightsfield के माध्यम से। - Quick privacy sanitisation routine documents के लिए, हालांकि high-stakes cases के लिए ऊपर scope caveat देखें।
अधिक प्रश्न
मेरे edits कभी-कभी DocInfo में appear होते हैं लेकिन XMP में नहीं (या vice versa), क्यों?
क्योंकि PDFs दोनों stores carry करती हैं और वे disagree कर सकते हैं। यह editor DocInfo पर write करता है (वह field जो हर reader inspect करता है)। XMP उन fields के लिए update होता है जिनका एक clear DocInfo equivalent हो। कुछ viewers (Adobe Acrobat विशेष रूप से) XMP पहले read करते हैं; यदि editing के बाद आप «stale» metadata देखते हैं, तो confirm करने के लिए document को किसी different reader से open करें कि issue XMP-only है या आपका reader simply old version cache कर रहा है।
क्या यह tool digital signature break करेगा?
हां, लगभग हमेशा। PDF पर digital signature पूरे document को protect करती है जिसमें metadata शामिल है; किसी भी byte को modify करना signature के cryptographic verification को break करता है। यदि आपको signed PDF पर metadata edit करना है, तो आपको या तो पहले signature remove करनी होगी (signer की permission से), metadata edit करना होगा, और re-sign कराना होगा; या original workflow में signing से पहले metadata changes apply करने होंगे।
PDF/A archival files के बारे में क्या?
PDF/A files में additional XMP requirements हैं (pdfaid:part और pdfaid:conformance markers, plus required Dublin Core fields)। XMP packet update किए बिना PDF/A का DocInfo edit करने से technically file PDF/A conformance से बाहर हो सकती है। Archival workflows के लिए, Acrobat Pro या veraPDF जैसा PDF/A-aware editor use करें।
मैं «completely anonymous» PDF कैसे बनाऊं?
Routine documents के लिए: identifying fields clear करने के लिए यहां DocInfo edit करें, फिर result को Acrobat के «Sanitize Document» या cpdf -remove-metadata से run करें। High-stakes anonymisation (whistleblowing, journalism, legal disclosure) के लिए: PDF को एक अलग machine पर scratch से re-create करें केवल extracted plain text का use करके, original से कोई images नहीं। Print-and-rescan भी काम करता है (rescanned PDF की OCR layer freshly authored है), file size और image quality की cost पर।
क्या कुछ server पर भेजा जाता है?
नहीं। PDF को pdf-lib द्वारा parse और rewrite किया जाता है जो locally आपके browser में run होता है; modified file सीधे आपके device पर download होती है। आपकी PDF के बारे में कुछ भी page नहीं छोड़ता, useful है जब document में internal author names, client information या confidential subject lines हों जिन्हें आप third-party service पर upload नहीं करना चाहते। pdf-lib library itself एक public CDN से subresource-integrity verification के साथ एक बार load होती है, फिर cache होती है।