在线 PDF 转 Word,免费
即时将 PDF 文件转换为可编辑的 Word DOCX 文档。提取文本内容以创建可编辑的文档。
支持 PDF · 最大 50 MB
转换完成
您的 Word 文档已准备好下载。
工作原理
- 上传 PDF: 拖放或选择要转换为 Word 的 PDF 文件。
- 配置选项: 选择字体、分页符和页码选项。
- 转换为 Word: 点击「转换为 Word」处理 PDF 并提取文本。
- 下载 DOCX: 下载您转换后的 Word 文档,并按需编辑。
为什么将 PDF 转换为 Word?
将 PDF 转换为 Word 文档可获得可编辑的格式,方便调整、排版和复用。Word 文档比 PDF 更灵活:可以添加评论、更换字体、重新组织内容,或将文本整合到更大的文档中。这对合同、报告、研究论文以及任何需要修改或自定义的文档都非常有用。
功能特性
- 完整文本提取: 从 PDF 的每一页提取所有文本内容。
- 分页符: 自动在 PDF 页面之间添加分页符,使文档结构清晰。
- 字体选择: 为输出的 Word 文档选择喜欢的字体。
- 页码: 可选择以评论形式在文档中插入页码。
- 可编辑输出: 生成的 DOCX 文件在 Word、Google Docs、LibreOffice 等应用中完全可编辑。
- 统计信息: 查看提取内容的页数、字符数和字数。
- 隐私: 所有处理都在您的浏览器中本地完成。不上传任何文件到服务器。
- 快速转换: 即时处理,无需等待或排队。
常见问题
原始 PDF 的版式会保留吗?
此工具提取文本内容并生成基础的 Word 文档。原 PDF 中的复杂版式、分栏、图片和格式可能无法完美保留。对于版式关键的文档,转换后可能需要在 Word 文件中手动调整。
转换后可以编辑 Word 文档吗?
可以。输出的 DOCX 文件在 Microsoft Word、Google Docs、LibreOffice 等兼容应用中完全可编辑。您可以添加、删除或修改文本,并应用自己的格式。
PDF 中的图片和图表呢?
此工具只提取文本内容。PDF 中的图片、图表和示意图不会包含在转换后的 Word 文档中。对视觉内容重要的文档,可能需要手动将图片重新插入 Word 文件。
可以转换扫描版 PDF 吗?
不可以。此工具适用于包含可选文本的 PDF。扫描版 PDF(基于图像)不含可提取的文本,需要 OCR(光学字符识别)。请先使用 OCR 工具从扫描文档中提取文本。
文件大小限制是多少?
支持最大 50 MB 的文件。更大的文件取决于浏览器可用内存也可能可以处理,但速度会更慢。
可以转换密码保护的 PDF 吗?
如果 PDF 使用用户密码(而非所有者密码)保护,可以。您需要先使用其他工具移除密码,然后再用此工具转换。
我的 PDF 会被上传到服务器吗?
不会。所有转换都通过 PDF.js 和 docx 库在您的浏览器中本地完成。您的 PDF 绝不会离开您的设备,确保完全的隐私和安全。
可以在手机上转换吗?
可以。此工具适用于桌面、平板和手机浏览器。只需点击选择 PDF 文件 · 转换会在您的设备上完成。
什么是PDF到Word转换器?
PDF到Word转换器获取PDF文件并生成具有相同文本内容的Microsoft Word DOCX文件,文件布局使您可以在Word、Google Docs、LibreOffice或任何DOCX兼容的应用程序中编辑。输出是一个全新的可编辑文档;原始PDF原封不动地保留在磁盘上。Word文件被组织成段落和格式化文本的运行,这与PDF平坦的定位字形流根本不同。
PDF于1993年设计为最终格式文件,针对忠实显示和打印进行了优化而非编辑。Word文档则相反:结构化、可编辑、为重排而构建。因此在两者之间转换是一个猜测原始意图的问题,而不是机械翻译。转换器遍历PDF的内容流,将字形分组为单词和行,并尝试重建段落分隔和字体运行。对于直接散文,这运作良好;对于表格、列和复杂布局,重建本质上是不完美的。
此工具使用pdf.js(Mozilla的JavaScript PDF渲染器)读取每个页面,使用docx.js构建输出Word文件,两者都完全在您的浏览器中运行。您上传的文件从不离开您的设备。输出DOCX可以在Word、Google Docs、Pages、LibreOffice和所有其他现代文字处理器中打开。转换专注于文本内容和基本段落结构;表格、嵌入图像和复杂的多列布局可能需要转换后手动清理。
工具内部有什么
顶部的拖放区接受您的PDF文件。50 MB限制是一个舒适的浏览器内存上限;pdf.js处理更大的文件但是非常长文档的转换会显着变慢。上传后,信息面板显示文件名、页数和文件大小,以便您可以确认已排队正确的文档。没有要摆弄的额外选项;转换只需一键完成。
单击转换为Word,该工具会遍历PDF的每个页面,使用pdf.js提取文本内容,按段落对文本进行分组(使用垂直间距和字体更改作为段落分隔的启发式方法),并使用docx.js组装Word文档。进度条显示正在处理的页面。典型的10-20页文档在几秒钟内转换;200页文档需要一两分钟,具体取决于您的机器。
转换完成后,下载按钮出现。下载的DOCX文件转到您的默认下载文件夹,并直接在Microsoft Word、Google Docs(拖入或上传)、LibreOffice Writer、Apple Pages和任何其他DOCX兼容编辑器中打开。输出Word文档的文件大小通常比原始PDF小,因为Word格式对于文本繁重的内容更紧凑。
历史与背景
PDF和Word作为相反的设计哲学(1983 vs 1993)
Microsoft Word for MS-DOS于1983年发布,Macintosh版本于1985年发布,.doc二进制格式成为办公编辑标准。PDF(Acrobat 1.0)十年后的1993年发布,目标设计相反:便携式只读最终形式,而不是编辑格式。Word文档在您键入时流动并重新格式化;PDF是定位字形的冻结页面。使PDF适合打印的设计选择正是使它们对编辑充满敌意的原因,这就是为什么PDF到Word的转换是一个固有的有损问题。
Acrobat 6发布Save As Word(2003)
Adobe Acrobat 6(2003年5月发布)是第一个广泛使用的提供内置PDF到Word转换的工具。Acrobat Professional中的Save As Word Document功能可以从任何具有可提取文本的PDF生成.doc文件。转换并不完美(Acrobat自己发布了关于布局重建的冗长免责声明)但它确立了用户对PDF可以一键转换为Word文档的期望。后来的版本提高了质量,特别是Acrobat 9(2008)中的表格重建。
Solid Documents和专业转换器(2007)
Solid Documents在2007年发布了Solid PDF to Word,迅速成为桌面PDF到Word转换的黄金标准,尤其是对于具有复杂表格和多列布局的文档。该公司将其转换引擎许可给其他供应商,包括Foxit和Nitro PDF。专业转换器使用布局感知启发式:检测表格边界、识别列流、保留字体运行作为字符格式。它们需要付费但产生的输出明显优于Acrobat或通用Web转换器,对于布局重建很重要的文档。
Microsoft Word直接打开PDF(2013)
Word 2013(2013年1月发布)增加了直接使用文件 > 打开来打开PDF的功能。Word执行内部PDF到Word转换(Microsoft称之为PDF Reflow)并将结果呈现为可编辑文档。这是一个重大的可用性改进:不需要单独的转换器。质量因文档而异,就像每个其他转换器一样。对于文本繁重的PDF,结果通常很好;对于设计繁重的PDF,Word警告用户重建可能与原始不匹配。
Web转换器和SaaS浪潮(2013年起)
Smallpdf(2013)、iLovePDF(2014)和PDF24(更老但扩展的Web服务)使基于浏览器的PDF到Word免费且易于访问。它们的模型需要将PDF上传到供应商的服务器进行处理,这引起了机密文档的隐私担忧。便利推动了大规模采用:到2020年,这些服务每年集体处理数十亿次转换。权衡(隐私换便利)正是像这样的客户端浏览器工具所解决的问题。
客户端转换变得可行(2019年起)
随着pdf.js和docx.js成熟,浏览器中完全客户端的PDF到Word转换变得实用。用户不上传任何内容;转换在用户的机器上以JavaScript进行。这是此工具遵循的路径。输出质量与典型Web转换器相匹配,适用于文本繁重的文档;对于布局繁重的文档,桌面专家(Solid PDF to Word、Acrobat Pro)仍然产生略好的重建,但隐私权衡有利于任何机密文档的基于浏览器的转换。
实用工作流程
编辑您没有源文件的PDF
供应商将服务协议作为PDF发送给您,但没有Word源文件。您需要进行跟踪更改供您的法律团队审查。转换为Word,在Word或Google Docs中使用跟踪更改进行编辑,与供应商共享。重建可能需要快速的布局清理,但文本是可编辑的,您的同事可以使用熟悉的审查工具。这是将PDF转换为Word的最常见原因。
将旧PDF迁移回可编辑档案
许多组织有数千个来自几十年前的PDF,其中Word源已丢失或删除。当文档需要更新时(新政策、新财年、新品牌),转换回Word是第一步。输出很少是像素完美的,但它为您提供了可编辑的文本进行重建。对于将重新发布的文档,配合Word中的手动布局清理。
将PDF翻译成另一种语言
翻译工具(Google翻译文档、DeepL、专业翻译记忆工具如SDL Trados)与Word文档配合得比与PDF好得多。首先转换为Word,然后运行翻译,然后在翻译被审查后可选地重新导出为PDF。Word格式还允许翻译人员跟踪更改和添加评论,这对于任何审查周期都至关重要。
提取和重新格式化内容以用于新文档
您想在新的演示文稿或备忘录中使用PDF报告的一个部分。转换为Word,复制相关段落(现在是正确的可编辑文本),粘贴到新文档中,并以您的目标样式重新格式化。这比直接从PDF阅读器复制更快,PDF阅读器经常引入断行和丢失格式。
更新已发布的表单或模板
旧的PDF表单(入会表单、费用报告模板、申请表)需要新字段、更新的品牌或修订的措辞。转换为Word,在Word中使用适当的表单字段进行编辑(Word中的开发者选项卡,或使用Google Forms等效项),然后重新导出为PDF或作为Word分发。这对简单表单效果最好;具有计算的复杂AcroForm应在PDF表单编辑器中编辑。
从PDF表格中提取数据
财务报告包括您需要分析的表格。将PDF转换为Word,将表格复制到Excel,清理在转换期间损坏的单元格。对于表格,这通常是一个起点而不是最终结果;复杂表格需要手动清理。对于纯数据提取(无需保留格式),Python中的pdfplumber或tabula-py通常比通过Word给出更清洁的结果。
常见陷阱
表格经常分裂成单独的文本框
PDF表格被渲染为特定x/y位置的文本片段网格;大多数PDF中没有底层表格结构。转换器必须猜测表格边界在哪里,这比听起来要难。大多数转换器将表格生成为一系列文本框或带制表符的段落运行,而不是适当的Word表格。修复方法是在转换后手动在Word中重新创建表格,或者如果您只需要值,则使用Excel清理数据。
多列布局被打乱
学术论文、杂志和报纸通常使用每页两到三列。转换器将每列视为按x/y位置的字形流,并可能将左列和右列交织成单个段落流。结果读起来像是:左列的第一行、右列的第一行、左列的第二行,依此类推。对于多列PDF,请手动逐列复制,或使用尊重列边界的布局感知Python库如pdfplumber。
字体被替换
PDF嵌入特定字体(有时晦涩或自定义)以特定的点大小。Word用您系统上最接近的可用字体替换它们。结果是具有不同排版的相同内容,这可能破坏精心设计的文档。如果您的输出文档需要在视觉上匹配PDF,请在转换后手动在Word中重新应用预期字体(或使用明确保留嵌入字体的转换器)。
表单字段不被翻译
PDF交互式表单(AcroForms或XFA表单)将字段值与静态页面内容分开存储。转换器只看到静态页面文本,所以表单值在转换中丢失。如果您需要转换填充的PDF表单并保留值,首先使用表单感知工具(pdftk、Adobe Acrobat导出数据,或Python pdfplumber的表单字段API)提取它们,然后手动将它们合并到Word文档中。
数学方程式出来时混乱
数学使用来自特殊符号字体(Computer Modern、STIX)的单个字形定位。转换器读取字形但失去使x平方与x乘2不同的空间关系。内联方程式出来时是混乱的符号序列;显示方程式作为断开的字符运行。对于数学繁重的PDF,使用专业的数学感知工具(MathPix snip),或将方程式提取为图像以视觉包含在Word文档中。
扫描的PDF产生空的Word文档
如果PDF是从扫描创建的,它包含页面的图像,而不是可提取的文本。转换器遍历内容流,找不到文本运算符,并产生空的或几乎空的Word文档。首先通过OCR运行扫描(Tesseract、Adobe Acrobat识别文本、ABBYY FineReader)以添加文本层,然后转换。如果源纯粹是扫描并且您需要可编辑的结果,无论之后使用哪个转换工具,OCR都是不可避免的第一步。
隐私和数据处理
您上传的PDF在整个转换过程中保留在您的设备上。pdf.js将其读入浏览器内存,docx.js组装输出Word文件,结果直接下载到您的磁盘,所有这些都在您机器上运行的JavaScript中完成。没有上传步骤,没有远程处理,没有关于您转换了什么文档的遥测数据。这很重要,因为您最想私下转换的文档(合同、医疗记录、法律通信、财务报表)正是您绝不应该发送给第三方云转换器的文档。
页面加载后,该工具离线工作。您可以断开互联网连接,拖入PDF,运行转换,并下载Word文档,而您的数据从未触及另一台机器。基于云的转换器(Smallpdf、iLovePDF、Adobe Document Cloud)需要在处理前上传PDF;对于机密文档,这正是要避免的失败模式。
何时不应使用此工具
当您只需要文本时(使用PDF到Text)
如果您的唯一目标是提取文本用于搜索、索引、粘贴到其他地方或提供给另一个工具,请改用PDF到Text工具。它更简单、更快,并且避免了构建您不需要的Word文档结构的开销。PDF到Word适用于您想要可编辑文档的情况;PDF到Text适用于您想要原始单词的情况。
对于复杂表格或数据提取(使用专业工具)
对于主要是复杂表格的文档(财务报告、科学数据表、零件目录),通用PDF到Word转换器产生混乱的输出。使用专业工具:pdfplumber(Python库,免费)、tabula-py(Python,免费)或Adobe Acrobat Pro的表格提取功能(付费)。对于一次性表格提取,Camelot(Python)和Excalibur(Camelot的Web UI)也是选项。Word文档存储表格,但转换到它们很少是表格忠实的。
对于扫描的PDF(先运行OCR)
如果您的PDF是纸张的扫描或一系列照片,则没有可提取的文本要转换。此工具产生的Word文档将是空的。首先通过OCR运行PDF:Tesseract(免费命令行,对英语和拉丁字母非常出色)、Adobe Acrobat Pro识别文本(付费,最佳布局保留)或ABBYY FineReader(付费,最适合非拉丁脚本和复杂文档)。OCR添加文本层后,此转换器将正常工作。
当像素完美的布局比可编辑性更重要时
如果文档的精确视觉布局比可编辑更重要(法律物证、认证文件、技术图纸),请勿转换为Word。转换将不可避免地重新流动文本并替换字体,产生不再完全匹配原始的文档。保留PDF作为权威版本,仅转换确实需要编辑的部分。
更多问题
为什么转换后的Word文档与原始PDF不同?
PDF存储定位字形,而不是段落结构。转换器必须猜测段落在哪里结束、列在哪里流动、表格在哪里开始、哪种字体是哪个。这些猜测对直接散文大多数时候是正确的,但对复杂布局逐渐变得更糟。对于需要接近完美转换的文档,使用具有布局感知转换的桌面工具(Acrobat Pro、Solid PDF to Word、ABBYY FineReader)并预期之后做一些手动清理。
PDF中的图像会出现在Word文档中吗?
这个基于浏览器的转换器专注于文本和基本结构;嵌入的图像可能在转换中存活,也可能不会,具体取决于PDF的复杂性。对于图像很重要的PDF(影集、演示文稿、插图报告),在查看器中打开PDF并分别提取图像,然后手动将它们插入Word文档。此站点上的PDF提取图像工具为此目的从PDF中提取每张图像。
转换可以反向,Word到PDF吗?
是的,但请使用专用的Word到PDF工具进行该方向。Word到PDF是简单的方向:Word已经具有干净映射到PDF的明确定义的结构。每个文字处理器(Word、Google Docs、LibreOffice、Pages)都有内置的导出到PDF。困难的方向是PDF到Word,因为PDF缺乏Word所依赖的结构信息。Microsoft Word本身可以使用与此工具相同的逆向工程类型打开PDF(Word 2013及更高版本中的文件 > 打开)。
该工具是否支持非拉丁脚本(中文、阿拉伯文、西里尔文)?
是的,前提是源PDF具有这些字符的适当ToUnicode字体映射(任何现代PDF都有)。提取的文本是Unicode,在Word文档中正确显示。从右到左的脚本如阿拉伯文和希伯来文按逻辑顺序生成;您可能需要在Word中应用从右到左的段落格式以获得正确的显示。CJK(中文、日文、韩文)完全支持。
DOC和DOCX有什么区别?
DOC是旧的Microsoft Word二进制格式(Word 97到2003)。DOCX是Word 2007中引入的较新的基于XML的格式,2008年标准化为ISO/IEC 29500(Office Open XML)。DOCX本质上是XML文件的ZIP存档,这使其开放、可解析并得到每个现代文字处理器的良好支持。此工具生成DOCX。如果您特别需要DOC以与非常旧的Word版本兼容,请在转换后从Word内部将DOCX另存为DOC。
这与直接在Word中打开PDF相比如何?
Microsoft Word 2013及更高版本可以使用文件 > 打开直接打开PDF。Microsoft内置转换的质量通常与Web转换器对文本繁重文档相当,对布局繁重文档略好(Microsoft在PDF Reflow上投入巨资)。这个浏览器工具的优势是隐私:没有上传任何内容,并且转换在可能没有安装Word的设备上运行(Linux、Chromebook、移动设备)。使用适合您工作流程的任何一个。