免费 PDF 拆分工具
即时将 PDF 拆分为单独的页面或自定义范围。无需上传到任何服务器即可提取页面。
支持最大 100 MB 的 PDF 文件
使用方法
- 在上方选择或拖放一个 PDF。
- 选择提取所有页面或指定自定义页面范围。
- PDF 将 在您的浏览器中完成拆分 · 不会上传到任何服务器。
- 拆分后的 PDF 会自动以 ZIP 文件形式下载。
何时使用 PDF 拆分工具
- 提取特定页面 · 从文档中删除不需要的页面。
- 分享单个页面 · 只将相关页面发送给对方。
- 减小文件大小 · 将较大的 PDF 拆分为更小、更易管理的文件。
- 整理文档 · 将多章节 PDF 分离为独立文档。
- 归档管理 · 将扫描文档拆分为单页 PDF。
了解页面范围
自定义范围功能可让您提取特定页面。使用逗号分隔多个范围:
- 1 · 提取第 1 页
- 1-3 · 提取第 1、2、3 页
- 5, 7-10, 15 · 提取第 5 页、第 7–10 页和第 15 页
- 2, 4, 6 · 从第 2 页开始每隔一页提取
常见问题
一次最多可以拆分多少页?
您可以拆分多达数百页的 PDF。上限取决于浏览器的内存,但大多数 PDF 会即时处理完成。
文件大小限制是多少?
最大可处理 100 MB 的 PDF。由于拆分在浏览器中完成,非常大的文件可能会根据设备性能需要稍等片刻。
我的 PDF 会被上传到某处吗?
不会。所有拆分都完全在您的浏览器中完成。您的 PDF 绝不离开您的设备,确保完全的隐私和安全。
可以按不同顺序提取页面吗?
可以。在自定义范围模式下,您可以按任意顺序输入页码:例如,输入 "5, 3, 1" 将创建一个按 5、3、1 顺序排列的 PDF。
PDF 表单和批注会怎样?
文本和排版会被保留,但交互式表单可能无法继承。批注在拆分过程中通常会保留。
「拆分」的四种含义
在 PDF 语境中,「拆分」这个动词至少涵盖四种相当不同的操作,而用同一个界面按钮的工具会给出彼此差距相当大的输出。炸开把 PDF 拆成 N 份单页 PDF,每一份用页码命名。区间提取挑选一组页码区间(例如 1-10 和 25-40),并为每一个区间产生一份 PDF。按书签拆章节读取文档大纲,找到每一个顶层书签所覆盖的页码区间,然后为每一章生成一份 PDF。自定义选择挑出任意一组页面,可能并不连贯,合到同一份 PDF 里。
本工具实现的是区间提取。用户指定页码区间,工具为每个区间构建一份输出 PDF,而原始文件不会被改动。如果把每一页都指定为各自的一页区间,就能实现炸开,但界面是按区间工作而优化的,因为那是现实里更主流的用法。自定义选择(在一份文件内任意重排页面)是 免费在线PDF页面编辑器这个工具的职责;按书签的章节拆分本工具还没支持,下文会坦白说明这件事。
拆分的简史
拆分比 PDF 这一格式还要早大约十年。文档影像厂商在 1980 年代末就已经在从多页 TIFF 和 PostScript 文件中抽取页码范围,要解决的核心问题与今天一致:把若干页的视觉内容拷贝到新的容器里,而不破坏那些把视觉内容跟其资源连起来的交叉引用。PDF 1993 年问世时,继承了这个问题,也继承了那段早期工作里的大部分算法机器。
本世纪初 PDF 操作的标准命令行工具是 pdftk,由 Sid Steward 在 2002 年用 Java 写成。pdftk 提供了明确的拆分、合并、旋转、加水印操作,全部都通过把 PDF 解析成对象模型,再把相关的子图重新发射出来实现。qpdf 由 Jay Berkenbilt 于 2008 年发起,成为现代开源世界的事实标准,它把同样的操作通过 C++ 库暴露出来,被全球软件包管理器广泛使用。ISO 32000-1 在 2008 年没有为拆分另立原语,因为现有的格式构件已经足够;拆分纯属作者侧的操作,用同样的积木块产出更小、依然合法的 PDF。
拆分实际上是怎么发生的
本工具中的拆分操作在 pdf-lib 内部跑三个确定的步骤。第一步,读取源 PDF 的交叉引用表,把每一个间接对象解析成内存里的模型。第二步,对每一个被请求的输出区间,工具新建一份空的目标文档,带着区间内的页索引调用 copyPages,沿着所选每一页的资源图(字体、图像、表单 XObject、图形状态字典、图样、色彩空间)行走,把每一个被传递引用到的对象都复制到目标的编号空间里,并把复制好的页面按顺序追加到目标的页面树。
第三步,每一份目标都被序列化为字节并以下载形式发出。每个区间各自的目标文档在两次迭代之间都可被回收,这就是为什么本工具能处理那种,把所有输出同时留在内存里就放不下的总页数巨大的 PDF。复制页面的底层原语,跟驱动本站「PDF 合并」工具的那一个完全相同,只是方向相反。两个操作都无损:被复制页面的文字、图像、矢量图与内容流原样写入目标,不做任何转码或栅格化,输出与源中对应页面在像素层面一致。
推动拆分的真实工作流
- 法律文书中的证据材料。 当一份动议被附带证据 A 至 Z 一起提交时,律师拼好的总 PDF 必须被切成单独的证据,以便法庭电子案件管理系统逐件索引。美国联邦法院的 CM/ECF 指引明确建议上传前先拆分,因为索引系统把每一件证据分别打上引用标签。
- 试卷与参考答案。 考试委员会通常把试卷、评分标准和考官报告打包成一份合并 PDF 归档。学校随后按段落拆分这份文件,分发给不同年级。从绝对数量看,这是最高规模的拆分场景之一,夏季考季会到峰值。
- 批次里的逐户对账单。 银行、公用事业、薪资系统经常生成一份每月一份的批次 PDF,里头是所有人的对账单,再在服务器端拆成单独的几份。同样的操作在接收端也偶尔会用到,比如报税服务收到合并年度的对账单,需要按季度拆。
- 按章节、按文章抽取。 大学职员按章节分发期刊合订本或教材扫描件,通常是为了控制在合理使用范围内。按书签拆分在这里是理想的工具;只能按区间的用户只好手动查每一章的起始页。
- 公开记录和信息公开请求工作流。 政府文档保管人员收到要公开的大型内部文件后,按敏感段落的边界拆分,把不敏感的部分立刻发布,把其余部分送到单独的工具里做修订。
- 样本作品集。 摄影师和设计师会维护一份总作品集,再单独拆出几张样片用于特定投递。规模比其他场景小,但单用户价值高,因为不这么做就得维护好几份主文件。
常见陷阱与绕过办法
- 表单字段失效。 交互式表单字典生活在文档级别。当带表单控件的页面被复制时,它们的视觉残影会过来,但让它们能交互的字段定义不会过来。拆分出的页面渲染上看着是对的,但不接受任何输入。解决办法:先用 在线 PDF 展平,免费 工具把源 PDF 打平,把控件转成普通页面内容,再去拆分这份打平的副本。
- 书签消失。 大纲树是一种文档级结构。按区间拆分目前不把大纲的相应子树带到每一份输出里,所以无论源文件是否有大纲,每一份拆出的文件都没有大纲。要做带大纲意识的拆分,要么得跑一遍对大纲的部分重写,要么换成另一种工作模式,目前都先搁置。
- 加密 PDF 加载失败。 带打开口令的 PDF 在口令没提供之前是无法解析的。本工具不支持加密输入。流程:先用 免费在线 PDF 解锁 工具去掉保护,再在这里拆分这份已解锁的副本,需要的话用 PDF 密码保护 给每一份输出再加上保护。
- 签名无法保留。 电子签名是源文件某段精确字节范围上的密码学哈希。拆分按定义会产生新的 PDF,而这些新的 PDF 里并不包含源文件原有的那些字节;签名在所有输出里都不会被保留。这在密码学上是正确的行为,但有时令人意外。让已签名的源 PDF 保持原样;如果实在需要拆,就拆一份未签名的副本。
- 无障碍标签不会被带过去。 驱动屏幕阅读器的 PDF/UA-1 结构树是一个文档级对象。按区间拆分不会把它带到输出里,所以带标签的源会拆出不带标签的输出。打算把拆好的部分继续分发给视障读者的话,需要再用 Adobe Acrobat 的「使易于访问」向导给每一份输出重新打标签。
为什么拆出的几份加起来比源文件略大
每一份输出的 PDF 本身就是一份完整、合法的 PDF:它有自己的目录、自己的页面树、自己的字体元数据,以及自己的交叉引用表。把一份 10 MB 的 PDF 拆成 10 份单页输出,通常加起来略多于 10 MB,因为这 10 份每一份都背负着「作为一份自给自足文档」的结构开销。经验上,这部分开销在总量的 1% 到 5% 区间,文件数越多,绝对开销越大。对大多数场景而言可以忽略;对那些把超大文件拆成很多小份的用户,这就肉眼可见了。如果你在意总大小,可以把每一份输出依次过一遍 免费在线 PDF 压缩 工具,把绝大部分逐文件开销收回来。
浏览器内拆分 vs 云端拆分
在 Google 搜索结果里最显眼的那些云端 PDF 拆分服务(Smallpdf、ILovePDF、PDF24 的网页版、Adobe Acrobat 在线版、Sejda 的免费档)都会把你的源 PDF 上传到它们的服务器,在那里做完拆分,再把每一份输出作为下载送回来。它们的隐私政策会说上传的文件几小时内删掉,但文件确实会穿过运营方的网络,在处理窗口里驻留在他们的磁盘上,并经过他们为防滥用而保留的任何日志。
本工具不上传。你的 PDF 通过标准 File API 被读进浏览器标签页,在同一个标签里由 pdf-lib 解析,再通过标准下载 API 把各个输出 PDF 写回你的硬盘。拆分过程中唯一的网络流量,是页面初次打开时一次性从 CDN 加载 pdf-lib 本身。你可以亲自验证:打开浏览器开发者工具的「网络」面板,跑一次拆分,看是否会有任何携带你文件内容的请求被触发。隐私保证的代价是缺一些功能(按书签拆分、结构树传递),那是更大的服务器端工具提供的;这是一个诚实的取舍,你可以根据具体文件挑哪边对你更重要。
更多常见问题
可以按书签或按章节拆分吗?
目前还不行。本工具走的是区间拆分:你给定页码区间,它为每个区间生成一份输出。按书签拆分(工具读取文档大纲,用每一个顶层书签覆盖的页码范围作为拆分点)是我们计划要加的功能,但尚未上线。当前的绕过办法是,在阅读器里打开 PDF,用可见的大纲记下章节起始页,再手工把这些区间输入进来。对那些大纲很深的文档,Smallpdf 或 Adobe Acrobat 在线版这类服务器端工具可以省下这个查找步骤。
为什么我的拆分文件加起来比原文件略大?
每一份输出的 PDF 都背着「自给自足文档」的结构开销(目录、页面树、交叉引用表、字体元数据)。把一份 10 MB 的文件拆成 10 份单页输出,加起来通常比输入多出几个百分点。这部分开销一般在 1% 到 5% 之间;输出文件数越多,绝对开销越大。如果总大小要紧,把每一份过一次 PDF Compress 工具,就能把大部分逐文件开销收回来。
拆分会保留我的书签和带标签的无障碍特性吗?
目前不会。大纲树和 PDF/UA-1 结构树都是文档级的对象。本工具用到的 pdf-lib copyPages 操作,还没有把这两者带到拆出的输出里。对于书签和标签保留要紧的文档(公共部门出版、无障碍文档分发),Adobe Acrobat 在线版今天是更合适的选择。对多数拆分而言这点损失可以接受;但对某些拆分不行,我们不愿假装它行。
可以拆加密或带口令的 PDF 吗?
不能直接拆。带打开口令的 PDF 在口令没提供之前是无法解析的,而 pdf-lib 在任何操作里都不支持加密输入。工作流是:先用 PDF Unlock 工具去掉口令,在这里拆分这份已解锁的副本,然后视情况用 PDF Protect 工具给每一份输出再加上保护。拆出的副本与原本签名加密那一份是不同的文档,所以签名有效性和访问控制不会被跨这次往返保留。
输出文件的命名规则是什么?
输出名是用源 PDF 的基础名加上指示区间的后缀生成的。一个叫 annual-report.pdf 的源,拆成 1-5 和 6-30,会产出 annual-report_pages_1-5.pdf 和 annual-report_pages_6-30.pdf。单页抽取会得到 _page_7.pdf 这样的后缀。命名是确定性的,这样批量工作流就可以从区间规范预测输出文件名。浏览器的「另存为」对话框决定每个文件落在哪;大多数现代浏览器为每个标签提供下载文件夹的偏好设置,会把它用于每一个输出。