如何在不损失质量的情况下压缩 PDF
PDF是共享文档最常见的文件格式之一,但它们可能变得意外的大。带有嵌入图像、字体或扫描页面的PDF很容易超过电子邮件附件限制(通常为25 MB)。压缩PDF可减小其文件大小,同时保持内容完整和可读。基于浏览器的压缩器在本地处理整个工作,而无需将您的文档上传到服务器。
为什么PDF变得如此大
并非所有PDF都是相同的。一个简单的文本文档可能是50 KB,而一个扫描的合同可能是20 MB。主要因素:
- 嵌入图像:照片和扫描通常以全分辨率存储在PDF中,即使不需要
- 嵌入字体:PDF可以包含整个字体文件以确保一致的显示,每个字体增加数百KB
- 元数据和隐藏图层:编辑历史、表单数据和不可见对象都会累积
- 冗余对象:当通过合并或编辑创建PDF时,重复数据可能累积
- 未压缩的流:并非所有PDF内部都使用最佳压缩;某些存储未压缩的数据
- 嵌入缩略图:某些PDF缓存每页的渲染缩略图,增加体积
- 嵌入多媒体:音频、视频和3D模型可使PDF大小膨胀
- 光学字符识别(OCR)层:可搜索的扫描PDF包括文本层加图像层
如何在线压缩PDF
- 上传您的PDF:将您的文件(最大100 MB)拖放到上传区域或点击浏览。
- 选择压缩级别:选择轻度(10-20%减少,最佳质量)、中度(20-35%,平衡)或重度(30-50%,最大压缩)。
- 压缩并下载:点击「压缩PDF」在您的浏览器中处理,然后下载较小的文件。工具会显示大小减少。
PDF压缩的简史
PDF(1993)从一开始就考虑了压缩。原始的PDF 1.0规范包括FlateDecode(与ZIP和PNG相同的Deflate算法)用于一般数据,以及JPEG嵌入用于图像。多年来,PDF添加了:
| 版本 | 年份 | 添加的压缩 |
|---|---|---|
| 1.0 | 1993 | FlateDecode(zlib/Deflate)、JPEG、CCITT Fax |
| 1.2 | 1996 | LZW压缩(有专利问题) |
| 1.4 | 2001 | JBIG2用于双层图像(扫描的高压缩) |
| 1.5 | 2003 | JPEG 2000、对象流、交叉引用流 |
| 1.7 / Ext 3 | 2009 | 改进的元数据压缩 |
| 2.0 | 2017 | 用于快速Web查看的更好流线性化 |
现代PDF压缩工具使用每个对象最有效的编码重建PDF。一个编码不佳的PDF可以仅通过重新编码而无任何质量损失就缩小50%。来自旧工具(2000年代初)的PDF比已经使用高效编码的现代工具的PDF压缩得多得多。
免费的Ghostscript库(自1986年起,早于PDF本身)一直是开源世界的事实PDF压缩引擎。大多数基于浏览器的压缩器使用Ghostscript的端口或pdf-lib(JavaScript)来完成工作。
选择正确的压缩级别
轻度压缩删除元数据、未使用的对象,并优化内部结构。这对任何文档都是安全的,文本和图像保持不变。
中度压缩另外减少嵌入图像的图像分辨率。适用于您以数字方式共享的文档,其中不需要打印质量的图像。
重度压缩积极降低图像质量。当您需要尽可能小的文件且文档主要是文本时使用。富含图像的PDF将显示明显的质量损失。
压缩技术详细说明
| 技术 | 它做什么 | 质量成本 |
|---|---|---|
| 流重新编码 | 用zlib/Deflate重新压缩对象流 | 无,无损 |
| 图像下采样 | 降低嵌入图像的DPI(300到150) | 图像质量损失,文本良好 |
| 图像重新编码 | 以较低质量重新编码JPEG(95%到75%) | 图像质量损失 |
| 图像格式转换 | 将PNG转换为照片的JPEG | 转换伪影 |
| 字体子集化 | 仅嵌入使用的字形,而不是整个字体 | 无 |
| 删除未使用的对象 | 剥离孤立数据 | 无 |
| 删除重复项 | 去重相同的流 | 无 |
| 剥离元数据 | 删除作者、历史、评论 | 隐私改善,内容不变 |
| 线性化 | 重新排序以实现快速Web查看 | 无,轻微开销 |
| 删除缩略图 | 剥离缓存的页面预览 | 查看器必须重新渲染缩略图 |
| OCR层展平 | 合并单独的文本和图像层 | 可搜索性可能会改变 |
好的压缩器在任何影响质量的技术之前应用无损技术(重新编码、子集化、去重)。一些压缩器暴露所有旋钮;其他使用预设。
图像分辨率目标
对于不同的用途,不同的DPI设置有意义:
| 用途 | 推荐DPI | 为什么 |
|---|---|---|
| 打印(专业) | 300 DPI | 高质量打印的行业标准 |
| 打印(家庭) | 200 DPI | 对办公打印机足够 |
| 屏幕查看 | 150 DPI | 在标准显示器上清晰 |
| 电子邮件附件 | 100-150 DPI | 平衡大小和可读性 |
| Web嵌入 | 96 DPI | 标准屏幕分辨率 |
| 移动预览 | 72 DPI | 较小的文件,在手机上仍然可读 |
从600 DPI扫描的PDF压缩到150 DPI通常会损失70-80%的文件大小,屏幕上没有可见的质量差异。
常见陷阱
- 压缩已经优化的PDF:之前已被压缩的PDF可能不会进一步缩小(或缩小很少)。验证您的节省。
- 文本照片的质量损失:对扫描的文本文档进行重度压缩可能会模糊字符并使OCR失败。对于您想要保持可搜索的文档,使用轻度或中度。
- 颜色偏移:积极的JPEG重新编码可能会稍微偏移颜色。对于品牌文档,压缩后验证颜色准确性。
- 表单字段损坏:某些压缩器将交互式表单展平为静态图像,失去可填充性。在发送前测试表单。
- 数字签名无效:如果压缩(这会修改文件),签名的PDF会失去其加密签名。压缩后重新签名。
- 可搜索文本丢失:扫描PDF的积极压缩可能会展平OCR文本层,破坏搜索。
- 注释或评论被删除:某些压缩器删除注释以节省空间。如果评论很重要,请验证。
- 线性化中断:针对快速Web查看优化的PDF(线性化的)可能需要在压缩后重新线性化。
- 嵌入字体被替换:如果压缩器无法子集化嵌入字体,它可能会替换为默认字体,改变外观。
- 页面顺序改变:非常罕见的是,涉及重建内部结构的压缩可能会交换页面。验证页面顺序。
- 水印被删除:一些「优化」PDF压缩器积极删除「未使用」对象,有时包括水印。
更小PDF的提示
- 在通过电子邮件发送之前压缩:大多数电子邮件提供商将附件限制为25 MB。快速压缩通常将PDF带到限制以下。
- 先删除不必要的页面:如果您只需要发送文档的一部分,先拆分相关页面,然后压缩。更少的内容意味着更小的文件。
- 检查结果:在发送之前打开压缩的PDF并滚动浏览。确保文本可读,任何重要图像看起来都可接受。
- 保留原件:始终压缩副本。如果您以后需要全质量版本,您希望拥有它。
- 剥离元数据以保护隐私:PDF元数据通常包括作者姓名、使用的软件和编辑历史。剥离元数据既减少大小又改善隐私。
- 如果适当,将彩色PDF转换为灰度:转换为灰度的彩色扫描合同缩小50-70%,没有功能损失。
- 对图像密集的PDF使用不同的工具:对于设计组合或杂志,专用的图像优化工作流程(先调整源图像大小,然后导出)通常胜过压缩最终PDF。
- 打印的预检查:如果为打印工作流程压缩,通过预检查运行PDF以确保没有丢失关键数据。
何时不要压缩
某些PDF应保持全尺寸:
- 准备打印的文件:如果PDF要发给专业印刷商,请将图像保持其原始分辨率
- 法律或归档文档:当每个细节都很重要时,避免有损压缩
- 已经很小的文件:200 KB的文本PDF不会从压缩中受益
- 法庭归档文件:许多法院要求未修改的PDF;压缩会修改文件结构
- 公证或签名的PDF:压缩使数字签名无效
- 带嵌入多媒体的PDF:重度压缩可能会破坏嵌入的音频或视频
替代方法
如果浏览器压缩不够缩小:
- Adobe Acrobat Pro:内置「减小文件大小」,带有许多预设,通常比免费工具产生更小的输出。
- Ghostscript(命令行):
gs -sDEVICE=pdfwrite -dPDFSETTINGS=/ebook产生积极压缩。 - PDFsam:免费桌面工具,具有多个PDF的批量压缩。
- macOS Preview:在导出为>PDF>Quartz滤镜>减小文件大小中提供的基本压缩功能。
- 在线服务:云压缩器(Smallpdf、ILovePDF)可能实现更积极的压缩,但需要上传。
- 以低DPI打印为PDF:打开PDF并以低DPI打印为PDF会展平所有内容并产生较小的文件(但失去可搜索性)。
- 转换为仅JPEG的PDF:将每页渲染为JPEG,然后将它们组装为新的PDF,产生小但平的(不可搜索)输出。
对于不应离开您机器的机密PDF,基于浏览器的压缩(此工具)或本地桌面工具(Adobe Acrobat、Ghostscript)是唯一安全的选择。
隐私和机密PDF
PDF压缩器完全在您的浏览器中运行。您上传的PDF、中间处理和压缩输出都保留在您的设备上。没有任何内容上传到服务器、记录或与任何人共享。
这很重要,因为您压缩的PDF通常非常敏感:准备发送电子邮件的签署合同、财务报表、用于旅行文件的扫描护照、发送给专家的医疗记录、禁运中的内部公司报告、员工记录、法律辩护、纳税申报表。云PDF压缩器按设计将您的文件上传到他们的服务器,通常为「服务改进」保留它们,并参与了真正的数据泄露,其中机密合同和人员记录最终被搜索引擎索引。基于浏览器的压缩器没有任何暴露:PDF永远不会离开您的机器。
基于浏览器的压缩在页面加载后也可以离线工作,对于在飞机上、在没有互联网访问的安全设施中处理文档,或在任何您不能或不应将机密文档上传到第三方的地方都很有用。
常见问题
我可以将 PDF 大小减小多少?
取决于内容。以文字为主的 PDF 只能减少 10–20%,而含大嵌入图像的 PDF 可以减少 30–50% 或更多。
压缩会降低 PDF 质量吗?
轻度压缩通过移除未使用数据和元数据来保持质量。高度压缩在图像丰富的 PDF 中可能降低图像质量,但文字仍清晰可读。
压缩后的 PDF 仍可打印吗?
可以。压缩后的 PDF 功能完整 · 可以像原文件一样打印、查看和分享。文字质量不受压缩影响。
在线压缩敏感 PDF 安全吗?
使用浏览器内的工具是安全的。您的 PDF 完全在您的设备上处理,从不发送到服务器。