Trình chuyển đổi PDF sang Word miễn phí

Chuyển đổi tệp PDF sang tài liệu Word DOCX có thể chỉnh sửa ngay lập tức. Trích xuất nội dung văn bản và tạo tài liệu bạn có thể chỉnh sửa.

100% phía máy khách · tệp của bạn không bao giờ rời khỏi thiết bị
Thả tệp PDF vào đây hoặc nhấp để duyệt

Hỗ trợ PDF · lên đến 50 MB

Đang chuyển đổi PDF...

Chuyển đổi hoàn tất

Tài liệu Word của bạn đã sẵn sàng để tải xuống.

Cách hoạt động

  1. Tải PDF lên: Thả hoặc chọn một tệp PDF để chuyển sang Word.
  2. Cấu hình tùy chọn: Chọn phông chữ, ngắt trang và cài đặt số trang.
  3. Chuyển sang Word: Nhấp “Chuyển sang Word” để xử lý PDF và trích xuất văn bản.
  4. Tải DOCX: Tải xuống tài liệu Word đã chuyển đổi và chỉnh sửa khi cần thiết.

Tại sao nên chuyển PDF sang Word?

Chuyển đổi tệp PDF sang tài liệu Word mang lại cho bạn định dạng có thể chỉnh sửa mà bạn có thể dễ dàng sửa đổi, định dạng và tái sử dụng. Tài liệu Word linh hoạt hơn PDF, cho phép bạn thêm nhận xét, thay đổi phông chữ, tổ chức lại nội dung hoặc kết hợp văn bản vào các tài liệu lớn hơn. Điều này đặc biệt hữu ích cho hợp đồng, báo cáo, bài nghiên cứu và bất kỳ tài liệu nào bạn cần chỉnh sửa hoặc tùy chỉnh.

Tính năng

Câu hỏi thường gặp

Điều này có bảo toàn bố cục PDF gốc không?

Công cụ này trích xuất nội dung văn bản và tạo một tài liệu Word cơ bản. Bố cục phức tạp, cột, hình ảnh và định dạng từ PDF gốc có thể không được bảo toàn hoàn hảo. Đối với các tài liệu mà bố cục là quan trọng, bạn có thể cần phải điều chỉnh tài liệu Word theo cách thủ công sau khi chuyển đổi.

Tôi có thể chỉnh sửa tài liệu Word đã chuyển đổi không?

Có. Tệp DOCX đầu ra có thể chỉnh sửa hoàn toàn trong Microsoft Word, Google Docs, LibreOffice và các ứng dụng tương thích khác. Bạn có thể thêm, xóa hoặc sửa đổi bất kỳ văn bản nào và áp dụng định dạng của riêng bạn.

Hình ảnh và đồ họa trong PDF thì sao?

Công cụ này chỉ trích xuất nội dung văn bản. Hình ảnh, đồ họa và sơ đồ trong PDF không được bao gồm trong tài liệu Word đã chuyển đổi. Đối với các tài liệu có nội dung trực quan đáng kể, bạn có thể cần phải thêm hình ảnh thủ công vào tệp Word.

Tôi có thể chuyển đổi PDF đã quét không?

Không. Công cụ này hoạt động với PDF có văn bản có thể chọn. PDF đã quét (PDF dựa trên hình ảnh) không chứa văn bản có thể trích xuất và sẽ yêu cầu OCR (Nhận dạng ký tự quang học). Sử dụng công cụ OCR trước để trích xuất văn bản từ tài liệu đã quét.

Giới hạn kích thước tệp là gì?

Hỗ trợ các tệp lên đến 50 MB. Tệp lớn hơn có thể hoạt động tùy thuộc vào bộ nhớ có sẵn của trình duyệt, nhưng quá trình chuyển đổi sẽ chậm hơn.

Tôi có thể chuyển đổi PDF được bảo vệ bằng mật khẩu không?

Có, nếu PDF được bảo vệ bằng mật khẩu người dùng (không phải mật khẩu chủ sở hữu). Bạn sẽ cần xóa mật khẩu trước bằng công cụ khác, sau đó chuyển đổi với công cụ này.

PDF của tôi có được gửi đến máy chủ không?

Không. Tất cả việc chuyển đổi diễn ra cục bộ trong trình duyệt của bạn với PDF.js và thư viện docx. PDF của bạn không bao giờ rời khỏi thiết bị, đảm bảo riêng tư và bảo mật.

Tôi có thể chuyển đổi trên thiết bị di động không?

Có. Công cụ này hoạt động trên trình duyệt máy tính, máy tính bảng và điện thoại di động. Chỉ cần nhấn để chọn tệp PDF và quá trình chuyển đổi sẽ xử lý trên thiết bị của bạn.

Trình chuyển đổi PDF sang Word là gì?

Trình chuyển đổi PDF sang Word lấy một tệp PDF và tạo ra một tệp Microsoft Word DOCX với cùng nội dung văn bản được trình bày để bạn có thể chỉnh sửa trong Word, Google Docs, LibreOffice hoặc bất kỳ ứng dụng nào tương thích với DOCX. Đầu ra là một tài liệu mới có thể chỉnh sửa; PDF gốc vẫn ở trên đĩa của bạn không bị động chạm. Tệp Word được cấu trúc thành các đoạn văn và các runs văn bản được định dạng, điều này về cơ bản khác với luồng phẳng các glyph được định vị của PDF.

PDF được thiết kế làm tệp định dạng cuối vào năm 1993, được tối ưu hóa cho hiển thị trung thực và in chứ không phải chỉnh sửa. Tài liệu Word thì ngược lại: có cấu trúc, có thể chỉnh sửa và được xây dựng để reflow. Do đó, chuyển đổi giữa chúng là một vấn đề đoán-ý-định-gốc chứ không phải là một bản dịch cơ học. Trình chuyển đổi đi qua luồng nội dung của PDF, nhóm các glyph thành các từ và dòng, và cố gắng tái tạo các ngắt đoạn và runs phông chữ. Đối với văn xuôi thẳng, điều này hoạt động tốt; đối với bảng, cột và bố cục phức tạp, việc tái tạo không hoàn hảo theo định nghĩa.

Công cụ này sử dụng pdf.js (trình render PDF JavaScript của Mozilla) để đọc mỗi trang và docx.js để xây dựng tệp Word đầu ra, cả hai chạy hoàn toàn trong trình duyệt của bạn. Tệp bạn tải lên không bao giờ rời khỏi thiết bị của bạn. DOCX đầu ra có thể được mở trong Word, Google Docs, Pages, LibreOffice và mọi trình xử lý văn bản hiện đại khác. Việc chuyển đổi tập trung vào nội dung văn bản và cấu trúc đoạn văn cơ bản; bảng, hình ảnh được nhúng và bố cục đa cột phức tạp có thể cần dọn dẹp thủ công sau khi chuyển đổi.

Bên trong công cụ là gì

Một vùng thả ở trên cùng chấp nhận tệp PDF của bạn. Giới hạn 50 MB là trần bộ nhớ trình duyệt thoải mái; pdf.js xử lý các tệp lớn hơn nhưng chuyển đổi các tài liệu rất dài chậm đáng kể. Sau khi tải lên, một bảng thông tin hiển thị tên tệp, số trang và kích thước tệp để bạn có thể xác nhận tài liệu đúng đang xếp hàng. Không có tùy chọn bổ sung để tinh chỉnh; chuyển đổi là một cú nhấp chuột.

Nhấp vào Chuyển đổi sang Word và công cụ đi qua mọi trang của PDF, trích xuất nội dung văn bản bằng cách sử dụng pdf.js, nhóm văn bản theo đoạn (sử dụng khoảng cách dọc và thay đổi phông chữ làm heuristic ngắt đoạn) và tập hợp một tài liệu Word bằng cách sử dụng docx.js. Thanh tiến trình hiển thị trang nào đang được xử lý. Một tài liệu điển hình 10 đến 20 trang chuyển đổi trong vài giây; một tài liệu 200 trang mất một hoặc hai phút tùy thuộc vào máy của bạn.

Khi việc chuyển đổi hoàn tất, một nút Tải xuống xuất hiện. Tệp DOCX được tải xuống đi vào thư mục tải xuống mặc định của bạn và mở trực tiếp trong Microsoft Word, Google Docs (kéo vào hoặc tải lên), LibreOffice Writer, Apple Pages và bất kỳ trình chỉnh sửa nào khác tương thích với DOCX. Kích thước tệp của tài liệu Word đầu ra thường nhỏ hơn PDF gốc vì định dạng Word nhỏ gọn hơn cho nội dung nặng văn bản.

Lịch sử và bối cảnh

PDF và Word như triết lý thiết kế đối lập (1983 vs 1993)

Microsoft Word cho MS-DOS được phát hành vào năm 1983 và cho Macintosh vào năm 1985, với định dạng nhị phân .doc trở thành tiêu chuẩn chỉnh sửa văn phòng. PDF (Acrobat 1.0) được giao một thập kỷ sau vào năm 1993 với mục tiêu thiết kế ngược lại: một hình thức cuối cùng chỉ đọc, có thể mang theo, không phải định dạng chỉnh sửa. Tài liệu Word trôi chảy và định dạng lại khi bạn gõ; PDF là các trang đông cứng của các glyph được định vị. Các lựa chọn thiết kế chính giúp PDF tuyệt vời cho việc in ấn khiến chúng thù địch với việc chỉnh sửa, đó là điều khiến việc chuyển đổi PDF sang Word trở thành một vấn đề vốn dĩ có mất mát.

Acrobat 6 giao Save As Word (2003)

Adobe Acrobat 6 (phát hành vào tháng 5 năm 2003) là công cụ được sử dụng rộng rãi đầu tiên cung cấp chuyển đổi PDF sang Word tích hợp. Tính năng Save As Word Document trong Acrobat Professional có thể tạo ra một tệp .doc từ bất kỳ PDF nào có văn bản có thể trích xuất. Việc chuyển đổi không hoàn hảo (chính Acrobat đã xuất bản các tuyên bố từ chối dài về tái tạo bố cục) nhưng nó đã thiết lập kỳ vọng của người dùng rằng PDF có thể trở thành tài liệu Word chỉ với một cú nhấp. Các phiên bản sau đã cải thiện chất lượng, đặc biệt là cho tái tạo bảng trong Acrobat 9 (2008).

Solid Documents và các trình chuyển đổi chuyên gia (2007)

Solid Documents đã phát hành Solid PDF to Word vào năm 2007 và nhanh chóng trở thành tiêu chuẩn vàng cho chuyển đổi PDF sang Word trên máy tính để bàn, đặc biệt là cho các tài liệu có bảng phức tạp và bố cục đa cột. Công ty đã cấp phép động cơ chuyển đổi của mình cho các nhà cung cấp khác bao gồm Foxit và Nitro PDF. Các trình chuyển đổi chuyên gia sử dụng heuristic nhận biết bố cục: phát hiện ranh giới bảng, nhận diện luồng cột, bảo toàn các runs phông chữ làm định dạng ký tự. Họ tốn tiền nhưng tạo ra đầu ra tốt hơn đáng kể so với Acrobat hoặc các trình chuyển đổi web chung cho các tài liệu mà việc tái tạo bố cục quan trọng.

Microsoft Word mở PDF trực tiếp (2013)

Word 2013 (phát hành tháng 1 năm 2013) đã thêm khả năng mở PDF trực tiếp với File > Open. Word thực hiện chuyển đổi nội bộ PDF sang Word (Microsoft gọi nó là PDF Reflow) và trình bày kết quả dưới dạng tài liệu có thể chỉnh sửa. Đây là một cải tiến lớn về khả năng sử dụng: không cần trình chuyển đổi riêng. Chất lượng thay đổi theo tài liệu, giống như mọi trình chuyển đổi khác. Đối với PDF nặng văn bản, kết quả thường tốt; đối với PDF nặng thiết kế, Word cảnh báo người dùng rằng việc tái tạo có thể không khớp với bản gốc.

Trình chuyển đổi web và làn sóng SaaS (từ năm 2013 trở đi)

Smallpdf (2013), iLovePDF (2014) và PDF24 (cũ hơn nhưng dịch vụ web được mở rộng) đã làm cho chuyển đổi PDF sang Word dựa trên trình duyệt miễn phí và có thể truy cập. Mô hình của họ yêu cầu tải lên PDF lên máy chủ của nhà cung cấp để xử lý, điều này gây ra lo ngại về quyền riêng tư cho các tài liệu bí mật. Sự tiện lợi đã thúc đẩy sự áp dụng rộng rãi: đến năm 2020, các dịch vụ này tập thể xử lý hàng tỷ chuyển đổi mỗi năm. Sự đánh đổi (quyền riêng tư cho sự tiện lợi) chính xác là điều mà các công cụ trình duyệt phía máy khách như công cụ này giải quyết.

Chuyển đổi phía máy khách trở nên khả thi (từ năm 2019 trở đi)

Khi pdf.js và docx.js trưởng thành, chuyển đổi PDF sang Word hoàn toàn phía máy khách trong trình duyệt đã trở nên thực tế. Người dùng không tải lên gì cả; chuyển đổi diễn ra trong JavaScript trên máy của người dùng. Đây là con đường mà công cụ này theo. Chất lượng đầu ra phù hợp với các trình chuyển đổi web điển hình cho các tài liệu nặng văn bản; đối với các tài liệu nặng bố cục, các chuyên gia desktop (Solid PDF to Word, Acrobat Pro) vẫn tạo ra việc tái tạo có phần tốt hơn, nhưng sự đánh đổi về quyền riêng tư có lợi cho chuyển đổi dựa trên trình duyệt cho bất kỳ tài liệu bí mật nào.

Quy trình làm việc thực tế

Chỉnh sửa một PDF mà bạn không có nguồn

Một nhà cung cấp gửi cho bạn một thỏa thuận dịch vụ dưới dạng PDF mà không có nguồn Word. Bạn cần thực hiện các thay đổi được theo dõi để nhóm pháp lý của bạn xem xét. Chuyển đổi sang Word, chỉnh sửa với Track Changes trong Word hoặc Google Docs, chia sẻ lại với nhà cung cấp. Việc tái tạo có thể cần dọn dẹp bố cục nhanh nhưng văn bản có thể chỉnh sửa được và đồng nghiệp của bạn có thể sử dụng các công cụ xem xét quen thuộc. Đây là lý do phổ biến nhất để chuyển đổi PDF sang Word.

Di chuyển các PDF cũ trở lại các kho lưu trữ có thể chỉnh sửa

Nhiều tổ chức có hàng nghìn PDF từ những thập kỷ qua, nơi nguồn Word đã bị mất hoặc bị xóa. Khi một tài liệu cần cập nhật (chính sách mới, năm tài chính mới, thương hiệu mới), chuyển đổi trở lại Word là bước đầu tiên. Đầu ra hiếm khi hoàn hảo pixel nhưng cung cấp cho bạn văn bản có thể chỉnh sửa để xây dựng lại. Kết hợp với dọn dẹp bố cục thủ công trong Word cho các tài liệu sẽ được xuất bản lại.

Dịch một PDF sang ngôn ngữ khác

Các công cụ dịch (Google Translate Documents, DeepL, các công cụ bộ nhớ dịch chuyên nghiệp như SDL Trados) hoạt động tốt hơn nhiều với các tài liệu Word so với PDF. Chuyển đổi sang Word trước, sau đó chạy bản dịch, sau đó tùy chọn xuất lại sang PDF sau khi bản dịch được xem xét. Định dạng Word cũng cho phép người dịch theo dõi các thay đổi và thêm bình luận, điều này rất quan trọng cho bất kỳ chu kỳ đánh giá nào.

Trích xuất và định dạng lại nội dung cho tài liệu mới

Bạn muốn sử dụng một phần của báo cáo PDF trong một bản trình bày hoặc bản ghi nhớ mới. Chuyển đổi sang Word, sao chép các đoạn liên quan (bây giờ là văn bản có thể chỉnh sửa đúng cách), dán vào tài liệu mới và định dạng lại theo phong cách mục tiêu của bạn. Điều này nhanh hơn so với sao chép trực tiếp từ trình đọc PDF, thường giới thiệu các ngắt dòng bị hỏng và định dạng bị mất.

Cập nhật một biểu mẫu hoặc mẫu đã xuất bản

Một biểu mẫu PDF cũ (biểu mẫu tiếp nhận, mẫu báo cáo chi phí, biểu mẫu đơn đăng ký) cần các trường mới, thương hiệu được cập nhật hoặc cách diễn đạt được sửa đổi. Chuyển đổi sang Word, chỉnh sửa trong Word với các trường biểu mẫu phù hợp (tab Developer trong Word, hoặc sử dụng tương đương Google Forms), sau đó xuất lại dưới dạng PDF hoặc phân phối dưới dạng Word. Điều này hoạt động tốt nhất cho các biểu mẫu đơn giản; các AcroForms phức tạp với các tính toán nên được chỉnh sửa trong trình chỉnh sửa biểu mẫu PDF.

Lấy dữ liệu từ một bảng PDF

Một báo cáo tài chính bao gồm một bảng bạn cần để phân tích. Chuyển đổi PDF sang Word, sao chép bảng vào Excel, dọn dẹp bất kỳ ô nào bị hỏng trong quá trình chuyển đổi. Đối với bảng, đây thường là điểm khởi đầu chứ không phải kết quả hoàn thành; các bảng phức tạp cần dọn dẹp thủ công. Đối với việc trích xuất dữ liệu thuần (không cần bảo toàn định dạng), pdfplumber hoặc tabula-py trong Python thường cho kết quả sạch hơn so với việc đi qua Word.

Cạm bẫy phổ biến

Các bảng thường vỡ thành các hộp văn bản riêng biệt

Một bảng PDF được render dưới dạng lưới các đoạn văn bản tại các vị trí x/y cụ thể; không có cấu trúc bảng cơ bản trong hầu hết các PDF. Trình chuyển đổi phải đoán nơi ranh giới bảng nằm, khó hơn nghe có vẻ. Hầu hết các trình chuyển đổi tạo ra các bảng dưới dạng một loạt các hộp văn bản hoặc runs đoạn với tab, không phải dưới dạng bảng Word đúng. Cách khắc phục là tạo lại bảng trong Word theo cách thủ công sau khi chuyển đổi, hoặc sử dụng Excel để làm sạch dữ liệu nếu bạn chỉ cần các giá trị.

Bố cục đa cột bị xáo trộn

Các bài báo học thuật, tạp chí và báo thường sử dụng hai hoặc ba cột mỗi trang. Trình chuyển đổi nhìn thấy mỗi cột như một luồng glyph theo vị trí x/y và có thể xen kẽ các cột trái và phải thành một luồng đoạn duy nhất. Kết quả đọc như sau: dòng đầu tiên của cột trái, dòng đầu tiên của cột phải, dòng thứ hai của cột trái, v.v. Đối với PDF đa cột, sao chép từng cột một bằng tay thay vào đó, hoặc sử dụng một thư viện Python nhận biết bố cục như pdfplumber tôn trọng các ranh giới cột.

Phông chữ bị thay thế

PDF nhúng các phông chữ cụ thể (đôi khi tối tăm hoặc tùy chỉnh) ở kích thước điểm cụ thể. Word thay thế chúng bằng phông chữ gần nhất có sẵn trên hệ thống của bạn. Kết quả là cùng nội dung với kiểu chữ khác, có thể phá vỡ các tài liệu được thiết kế cẩn thận. Nếu tài liệu đầu ra của bạn cần phù hợp với PDF một cách trực quan, hãy áp dụng lại phông chữ dự định theo cách thủ công trong Word sau khi chuyển đổi (hoặc sử dụng trình chuyển đổi bảo toàn phông chữ được nhúng một cách rõ ràng).

Các trường biểu mẫu không được dịch

Các biểu mẫu tương tác PDF (AcroForms hoặc biểu mẫu XFA) lưu trữ các giá trị trường riêng biệt với nội dung trang tĩnh. Trình chuyển đổi chỉ nhìn thấy văn bản trang tĩnh, vì vậy các giá trị biểu mẫu bị mất trong quá trình chuyển đổi. Nếu bạn cần chuyển đổi một biểu mẫu PDF đã điền và giữ các giá trị, hãy trích xuất chúng trước bằng công cụ nhận biết biểu mẫu (pdftk, Adobe Acrobat Export Data hoặc API form-field của pdfplumber Python), sau đó hợp nhất chúng vào tài liệu Word theo cách thủ công.

Các phương trình toán học xuất ra lộn xộn

Toán học được định vị bằng cách sử dụng các glyph cá nhân từ các phông chữ ký hiệu đặc biệt (Computer Modern, STIX). Trình chuyển đổi đọc các glyph nhưng mất các mối quan hệ không gian khiến x bình phương khác với x nhân 2. Các phương trình inline xuất ra dưới dạng các chuỗi ký hiệu lộn xộn; các phương trình hiển thị dưới dạng runs ký tự bị ngắt kết nối. Đối với PDF nặng toán học, hãy sử dụng một công cụ chuyên gia nhận biết toán học (MathPix snip), hoặc trích xuất các phương trình dưới dạng hình ảnh để đưa vào trực quan trong tài liệu Word.

PDF được quét tạo ra các tài liệu Word trống

Nếu một PDF được tạo từ một bản quét, nó chứa một hình ảnh của trang, không phải văn bản có thể trích xuất. Trình chuyển đổi đi qua luồng nội dung, không tìm thấy toán tử văn bản và tạo ra một tài liệu Word trống hoặc gần như trống. Chạy bản quét qua OCR trước (Tesseract, Adobe Acrobat Recognize Text, ABBYY FineReader) để thêm một lớp văn bản, sau đó chuyển đổi. Nếu nguồn hoàn toàn là một bản quét và bạn cần một kết quả có thể chỉnh sửa, OCR là bước đầu tiên không thể tránh khỏi bất kể bạn sử dụng công cụ chuyển đổi nào sau đó.

Quyền riêng tư và xử lý dữ liệu

PDF bạn tải lên ở lại trên thiết bị của bạn trong suốt quá trình chuyển đổi. pdf.js đọc nó vào bộ nhớ trình duyệt, docx.js tập hợp tệp Word đầu ra, và kết quả tải xuống trực tiếp vào đĩa của bạn, tất cả trong JavaScript chạy trên máy của bạn. Không có bước tải lên, không có xử lý từ xa và không có thiết bị đo từ xa về tài liệu nào bạn đã chuyển đổi. Điều này quan trọng vì các tài liệu bạn muốn chuyển đổi riêng tư nhất (hợp đồng, hồ sơ y tế, thư từ pháp lý, báo cáo tài chính) chính xác là những tài liệu bạn không bao giờ nên gửi đến một trình chuyển đổi đám mây của bên thứ ba.

Sau khi trang được tải, công cụ hoạt động ngoại tuyến. Bạn có thể ngắt kết nối khỏi internet, thả một PDF, chạy chuyển đổi và tải xuống tài liệu Word mà dữ liệu của bạn không bao giờ chạm vào máy khác. Các trình chuyển đổi dựa trên đám mây (Smallpdf, iLovePDF, Adobe Document Cloud) yêu cầu tải lên PDF trước khi xử lý; đối với các tài liệu bí mật đó chính là chế độ thất bại cần tránh.

Khi nào không sử dụng công cụ này

Khi bạn chỉ cần văn bản (sử dụng PDF sang Văn bản)

Nếu mục tiêu duy nhất của bạn là trích xuất văn bản để tìm kiếm, lập chỉ mục, dán vào nơi khác hoặc đưa vào công cụ khác, hãy sử dụng công cụ PDF sang Văn bản. Nó đơn giản hơn, nhanh hơn và tránh chi phí xây dựng cấu trúc tài liệu Word mà bạn không cần. PDF sang Word dành cho khi bạn muốn một tài liệu có thể chỉnh sửa; PDF sang Văn bản dành cho khi bạn muốn các từ thô.

Đối với bảng phức tạp hoặc trích xuất dữ liệu (sử dụng công cụ chuyên dụng)

Đối với các tài liệu chủ yếu là các bảng phức tạp (báo cáo tài chính, bảng dữ liệu khoa học, danh mục phụ tùng), các trình chuyển đổi PDF sang Word chung tạo ra đầu ra lộn xộn. Sử dụng các công cụ chuyên gia: pdfplumber (thư viện Python, miễn phí), tabula-py (Python, miễn phí), hoặc tính năng Trích xuất Bảng của Adobe Acrobat Pro (trả phí). Đối với các trích xuất bảng một lần, Camelot (Python) và Excalibur (giao diện web cho Camelot) cũng là các tùy chọn. Tài liệu Word lưu trữ các bảng nhưng việc chuyển đổi sang chúng hiếm khi trung thực với bảng.

Đối với các PDF được quét (chạy OCR trước)

Nếu PDF của bạn là một bản quét giấy hoặc một loạt ảnh, không có văn bản có thể trích xuất để chuyển đổi. Tài liệu Word mà công cụ này tạo ra sẽ trống. Chạy PDF qua OCR trước: Tesseract (dòng lệnh miễn phí, xuất sắc cho tiếng Anh và chữ Latin), Adobe Acrobat Pro Recognize Text (trả phí, giữ lại bố cục tốt nhất), hoặc ABBYY FineReader (trả phí, tốt nhất cho các chữ không phải Latin và các tài liệu phức tạp). Sau khi OCR thêm một lớp văn bản, trình chuyển đổi này sẽ hoạt động bình thường.

Khi bố cục pixel-hoàn hảo quan trọng hơn khả năng chỉnh sửa

Nếu bố cục trực quan chính xác của tài liệu quan trọng hơn việc có thể chỉnh sửa (triển lãm pháp lý, tài liệu được chứng nhận, bản vẽ kỹ thuật), đừng chuyển đổi sang Word. Việc chuyển đổi chắc chắn sẽ reflow văn bản và thay thế phông chữ, tạo ra một tài liệu không còn khớp chính xác với bản gốc. Giữ PDF làm phiên bản có thẩm quyền và chỉ chuyển đổi các phần thực sự cần chỉnh sửa.

Các câu hỏi khác

Tại sao tài liệu Word đã chuyển đổi khác với PDF gốc?

PDF lưu trữ các glyph được định vị, không phải cấu trúc đoạn. Trình chuyển đổi phải đoán nơi các đoạn kết thúc, nơi các cột chảy, nơi các bảng bắt đầu, phông chữ nào là phông chữ nào. Những phỏng đoán này đúng hầu hết thời gian đối với văn xuôi thẳng nhưng dần dần xấu đi đối với các bố cục phức tạp. Đối với các tài liệu mà việc chuyển đổi cần gần như hoàn hảo, hãy sử dụng một công cụ desktop với chuyển đổi nhận biết bố cục (Acrobat Pro, Solid PDF to Word, ABBYY FineReader) và mong đợi thực hiện một số dọn dẹp thủ công sau đó.

Hình ảnh từ PDF có xuất hiện trong tài liệu Word không?

Trình chuyển đổi dựa trên trình duyệt này tập trung vào văn bản và cấu trúc cơ bản; hình ảnh nhúng có thể hoặc không thể tồn tại qua chuyển đổi tùy thuộc vào độ phức tạp của PDF. Đối với PDF mà hình ảnh quan trọng (sách ảnh, bản trình bày, báo cáo có minh họa), mở PDF trong trình xem và trích xuất hình ảnh riêng biệt, sau đó chèn chúng vào tài liệu Word theo cách thủ công. Công cụ PDF Extract Images trên trang này lấy mọi hình ảnh từ PDF cho mục đích này.

Việc chuyển đổi có thể đi theo hướng khác, Word sang PDF không?

Có, nhưng hãy sử dụng công cụ Word sang PDF chuyên dụng cho hướng đó. Word sang PDF là hướng dễ: Word đã có một cấu trúc được xác định rõ ràng ánh xạ sạch sẽ sang PDF. Mọi trình xử lý văn bản (Word, Google Docs, LibreOffice, Pages) đều có Xuất sang PDF tích hợp. Hướng khó là PDF sang Word vì PDF thiếu thông tin cấu trúc mà Word dựa vào. Bản thân Microsoft Word có thể mở PDF (File > Open trong Word 2013 và sau này) bằng cách sử dụng cùng loại kỹ thuật đảo ngược mà công cụ này làm.

Công cụ có hỗ trợ các chữ không phải Latin (Trung Quốc, Ả Rập, Cyrillic) không?

Có, miễn là PDF nguồn có bản đồ phông chữ ToUnicode đúng cho các ký tự đó (mà bất kỳ PDF hiện đại nào cũng có). Văn bản được trích xuất là Unicode và hiển thị chính xác trong tài liệu Word. Các chữ phải-sang-trái như Ả Rập và Hebrew được tạo theo thứ tự logic; bạn có thể cần áp dụng định dạng đoạn phải-sang-trái trong Word để hiển thị đúng. CJK (Trung Quốc, Nhật Bản, Hàn Quốc) được hỗ trợ đầy đủ.

Sự khác biệt giữa DOC và DOCX là gì?

DOC là định dạng nhị phân Microsoft Word cũ (Word 97 đến 2003). DOCX là định dạng dựa trên XML mới hơn được giới thiệu trong Word 2007, được chuẩn hóa thành ISO/IEC 29500 (Office Open XML) vào năm 2008. DOCX về cơ bản là một kho lưu trữ ZIP của các tệp XML, khiến nó mở, có thể phân tích cú pháp và được hỗ trợ tốt bởi mọi trình xử lý văn bản hiện đại. Công cụ này tạo ra DOCX. Nếu bạn đặc biệt cần DOC để tương thích với các phiên bản Word rất cũ, hãy lưu DOCX dưới dạng DOC từ trong Word sau khi chuyển đổi.

Điều này so sánh thế nào với việc mở PDF trực tiếp trong Word?

Microsoft Word 2013 và sau này có thể mở PDF trực tiếp bằng cách sử dụng File > Open. Chất lượng chuyển đổi tích hợp của Microsoft thường tương đương với các trình chuyển đổi web cho các tài liệu nặng văn bản và tốt hơn một chút cho các tài liệu nặng bố cục (Microsoft đã đầu tư rất nhiều vào PDF Reflow). Ưu điểm của công cụ trình duyệt này là quyền riêng tư: không có gì được tải lên, và việc chuyển đổi chạy trên các thiết bị có thể không có Word được cài đặt (Linux, Chromebook, di động). Sử dụng bất cứ thứ gì phù hợp với quy trình làm việc của bạn.

Công cụ liên quan