PDF 元数据编辑器,免费
编辑 PDF 元数据 · 标题、作者、主题、关键词等。完全在您的浏览器中运行。
什么是 PDF 元数据?
PDF 元数据是关于文档的信息,不会出现在可见内容中。包括标题、作者、主题、关键词、创建日期及其他属性。这些信息有助于整理、搜索和识别文档。
为什么编辑 PDF 元数据?
- 整理· 为您的文档设置一致的元数据,以便更好地分类和搜索。
- 专业性· 确保您的文档显示正确的作者和标题。
- SEO 与可发现性· 元数据中的关键词有助于可被发现。
- 修正属性· 纠正错误或缺失的作者、标题或主题信息。
常见问题
编辑元数据会改变 PDF 的内容吗?
不会。只有元数据被修改。PDF 的内容、页面和版式保持完全一致。
可以编辑加密 PDF 的元数据吗?
如果 PDF 受密码保护,您无法用此工具编辑其元数据。必须先解锁该文件。
文件大小限制是多少?
此工具支持最大 10 MB 的 PDF。较大的文件处理时间可能更长。
PDF元数据的本质
PDF文件可在两个地方同时携带文档级元数据。最初的机制自PDF 1.0(1993年)起存在,即文档信息字典(称为「DocInfo」或/Info):一个从PDF尾部引用的键/值对象。PDF 1.4(2001年)新增了第二种更丰富的机制,即XMP元数据流,一个嵌入为附属于文档目录的流对象的XML数据包(符合Adobe可扩展元数据平台的RDF/XML格式)。XMP于2012年成为开放的ISO标准(ISO 16684-1)。
这两个存储位置并不等同,可能相互矛盾。Adobe参考规范和ISO 32000标准均表示,当XMP存在时优先使用XMP,DocInfo应视为遗留镜像。在ISO 32000-2(PDF 2.0)中,旧版DocInfo字典除CreationDate和ModDate(签名处理程序仍使用)外,其余字段已被正式弃用。实际上,几乎所有阅读器(Adobe Acrobat、Foxit、macOS Preview、浏览器查看器)默认读取DocInfo,仅对DocInfo从未支持的字段(如版权)才回退至XMP。
标准DocInfo字段包括Title(标题)、Author(作者)、Subject(主题)、Keywords(关键字)、Creator(创建文档的应用程序,如「Microsoft Word」)、Producer(生成实际PDF的应用程序,如「Adobe PDF Library 17.0」)、CreationDate(创建日期)、ModDate(修改日期)(PDF日期格式如D:20240315093000-04'00')和Trapped。XMP将字段组织为命名空间:Dublin Core的dc:title、dc:creator、dc:rights、dc:language;XMP-MM的DocumentID、InstanceID及History编辑日志;PDF/A和PDF/UA合规标记;以及工具自定义的命名空间。本编辑器直接提供最常用的DocInfo字段;仅XMP支持的字段需要更专业的编辑器处理。
简史
PDF源于约翰·沃诺克1991年的内部Adobe备忘录(「Camelot」文件),提出了一种在不同设备上保持视觉保真度的便携文档格式。Adobe于1993年随Acrobat 1.0推出PDF 1.0;DocInfo字典从第一天就存在。整个1990年代至2000年代初,该格式相继增加了加密、超链接、表单、JavaScript、透明度、带标签的PDF无障碍功能(PDF 1.4,2001年)以及XMP元数据机制(同为PDF 1.4)。PDF/A(强制嵌入XMP并禁止加密的归档子集)于2005年被批准为ISO 19005-1。Adobe于2008年将PDF移交给ISO,PDF 1.7成为ISO 32000-1:2008。ISO 32000-2:2017发布了PDF 2.0,主要元数据变化是弃用DocInfo,转而支持XMP。2020年修订版以及PDF协会于2023年4月免费发布规范,使该标准现已可公开获取。
隐私问题:PDF泄露了什么
由典型办公软件创建的PDF所泄露的来源信息,远比大多数用户意识到的要多。从一份PDF中通常可以提取:
- 作者全名。Microsoft Word从用户的Office账户或安装时注册的Windows用户名中写入
Author字段。LibreOffice从用户数据设置中写入用户的姓名。macOS上的Pages使用系统「全名」。任何应用另存为PDF时都会自动继承嵌入的值。 - 完整的编辑历史。XMP的
xmpMM:History记录每次保存和转换事件,包含时间戳、软件名称和实例UUID,形成文档的部分修订日志。 - 精确到版本和构建号的软件标识。
Producer字段通常显示如「Microsoft® Word for Microsoft 365」或「Adobe PDF Library 17.00.6」或「Skia/PDF m120」(Chrome的打印为PDF)。这可以识别工作站操作系统和补丁级别。 - 创建时间戳+修改时间戳+两者之间的间隔。4秒的间隔表明是直接打印为PDF;45分钟的间隔表明有实质性编辑。结合起来,这些信息可以确定文档的创建时间、地点和作者。
- 嵌入图像的EXIF数据。当携带EXIF GPS坐标的图像被拖入Word或InDesign文档并导出为PDF时,底层图像流通常保留EXIF标签,包括经纬度。ExifTool甚至能从「嵌入」的图像中提取它们。
- 修订记录注释。在启用「显示标记」的情况下从Word导出的PDF,会将审阅者缩写和时间戳嵌入注释流中(技术上属于内容而非元数据,但通常在读者展开评论面板之前不可见)。
值得关注的真实案例
- 马纳福特庭审文件(2019年1月):保罗·马纳福特的辩护律师提交了一份在文字上绘制了PDF遮蔽矩形的庭审文件。内容流中的文字本身完好无损,记者在数小时内通过基本的复制粘贴将其提取,揭露了马纳福特曾与俄罗斯情报相关人员共享美国民调数据的指控。附带元数据还点明了制作该文件的律所机器名称和软件。
- 英国政府「伪造情报」(2003年2月):题为《伊拉克:其隐蔽、欺骗与恐吓基础设施》的文件,其编辑历史元数据中列有四名作者,其中包括一名美国研究生,其2002年论文被复制粘贴于其中。这份Word文档隐藏的作者痕迹成为关键证据。
- TSA安全手册(2009年12月):美国运输安全管理局发布了一份经过遮蔽处理的旅客安检标准操作程序。遮蔽是在原始文本上叠加图像覆盖物;底层文字可被提取。完整文件随即泄露,包括受到加强安检的盟国护照持有人名单。
- 「作者:对方律所名称」:律所屡见不鲜的事故,对外发送的PDF摘要中
Author字段包含对方律所名称,原因是有人从取证PDF复制粘贴到新的Word文档,目标文档继承了来源文档的作者。许多律所现在要求在任何外发前先通过Word的「文档检查器」或Acrobat的「净化文档」处理。
本工具的诚实适用范围
本编辑器允许您查看和覆写标准DocInfo字段,对于在外发文件前清理作者名称、修正令文档管理系统困惑的错误标题元数据,或从新闻稿中去除工作站指纹,确实很有用。但它不是完整的净化工具。具体而言:
- 嵌入照片中的图像EXIF数据可能仍携带GPS坐标和相机详情。
- 修订记录和审阅者评论作为注释存储,不会被删除。
- 遮蔽矩形下的隐藏文字仍可提取,在文字上绘制黑色矩形并不能从PDF内容流中删除该文字。这是意外泄露最常见的来源。
- XMP流中的
xmpMM:History编辑日志不一定会被清除。 - 嵌入的字体子集如果使用了罕见字体,可能会识别出原始工作站。
- 打印机追踪点(大多数彩色激光打印机嵌入的黄色微点图案)属于内容层面,不受元数据编辑影响,Reality Winner案(2017年6月)正是以此为关键证据。
对于敏感文件的完整净化,正确的工具是Adobe Acrobat Pro的「净化文档」命令、开源的cpdf命令行工具的-remove-metadata选项,或ExifTool的-all=指令加上手动检查。敏感工作流通常选择从提取的纯文本重新创建文档,而不是试图清理原件。
查看元数据的工具
- Adobe Acrobat:文件 → 属性。显示DocInfo字段和XMP数据包的独立「更多元数据」面板。
- ExifTool(Phil Harvey),命令行领域的金标准。
exiftool file.pdf打印所有内容;exiftool -all= file.pdf清除所有内容。 - pdfinfo(poppler-utils的一部分),快速CLI输出DocInfo及页面级详情。
- pdf.js / PDF.js(Firefox渲染PDF所使用的库),通过
doc.getMetadata()提供浏览器端元数据读取。 - pdf-lib:驱动本工具编辑功能的JavaScript库;提供
setTitle()、setAuthor()等方法,并写回完全符合规范的PDF。
何时会用到本工具
- 在将文件发送到组织外部前清理作者/创建者姓名。
- 为将进入文档管理系统或图书馆目录的批量文件设置统一的标题元数据。
- 为将关键词用作发现增益的内部全文搜索系统添加关键词。
- 修正「另存为PDF」继承了误导性文件名时的错误标题。
- 通过
Author字段(以及对支持XMP的工具的dc:rights字段)声明版权/许可证。 - 对常规文件进行快速隐私净化,但高风险情况请参见上述适用范围注意事项。
更多问题
为什么我的编辑有时显示在DocInfo中而不在XMP中(反之亦然)?
因为PDF同时携带两个存储位置,两者可能相互矛盾。本编辑器写入DocInfo(每个阅读器都会检查的字段)。对于有明确DocInfo对应关系的字段,XMP也会相应更新。某些查看器(尤其是Adobe Acrobat)优先读取XMP;如果编辑后看到「过时」的元数据,请用其他阅读器打开文件,确认问题是仅在XMP中,还是您的阅读器只是在缓存旧版本。
本工具会破坏数字签名吗?
是的,几乎总是如此。PDF上的数字签名保护包括元数据在内的整个文档;修改任何字节都会破坏签名的密码学验证。如果您需要编辑已签名PDF的元数据,要么先在签名者许可下删除签名,编辑元数据,然后重新签名;要么在原始工作流中在签名前应用元数据更改。
PDF/A归档文件怎么处理?
PDF/A文件有额外的XMP要求(pdfaid:part和pdfaid:conformance标记,以及必填的Dublin Core字段)。在不更新XMP数据包的情况下编辑PDF/A的DocInfo可能在技术上使文件不再符合PDF/A规范。对于归档工作流,请使用具备PDF/A感知的编辑器,如Acrobat Pro或veraPDF。
如何制作一份「完全匿名」的PDF?
对于常规文件:在此编辑DocInfo以清除识别字段,然后通过Acrobat的「净化文档」或cpdf -remove-metadata处理结果。对于高风险的匿名化(举报、新闻报道、法律披露):在不同机器上仅使用从原件提取的纯文本从头重新创建PDF,不包含任何来自原件的图像。打印后重新扫描也可行(重新扫描PDF的OCR层是全新创作的),但代价是文件大小和图像质量。
有任何内容会被发送至服务器吗?
不会。PDF由pdf-lib在您浏览器中本地解析和重写;修改后的文件直接下载到您的设备。您的PDF内容不会离开本页面,当文件包含内部作者姓名、客户信息或机密主题行时尤为有用,您无需将其上传至第三方服务。pdf-lib库本身通过公共CDN加载一次(附带子资源完整性验证),然后被缓存。