Trình Chuyển Đổi Word Sang PDF

Chuyển đổi tệp Word (.docx) của bạn sang PDF tức thì. Không cần đăng ký. Tệp của bạn không bao giờ rời khỏi thiết bị.

100% phía máy khách · tệp của bạn không bao giờ rời khỏi thiết bị
Thả tệp Word tại đây hoặc nhấp để duyệt

Hỗ trợ .docx · đến 25 MB

Lưu ý: định dạng phức tạp như bảng, hình ảnh và cột có thể được đơn giản hóa trong quá trình chuyển đổi.

Cách hoạt động

  1. Tải lên tệp Word: thả hoặc chọn tệp .docx để chuyển đổi.
  2. Cấu hình tùy chọn: chọn kích thước trang và lề mong muốn.
  3. Chuyển đổi: nhấp « Chuyển sang PDF » để tạo PDF của bạn. Việc chuyển đổi diễn ra tức thì trong trình duyệt của bạn.

Tại sao chuyển sang PDF?

PDF là định dạng tài liệu phổ quát. Chuyển tài liệu Word sang PDF đảm bảo định dạng nhất quán trên tất cả các thiết bị và hệ điều hành, làm cho tài liệu chỉ đọc để tránh chỉnh sửa vô tình, giảm kích thước tệp và phù hợp lý tưởng cho chia sẻ, lưu trữ và gửi chuyên nghiệp. PDF tương thích ở khắp mọi nơi và bảo toàn định dạng gốc của bạn.

«DOCX sang PDF» thực sự có nghĩa là gì

Tệp `.docx` không phải là một tài liệu duy nhất như khi nó xuất hiện trong Word. Đó là một kho lưu trữ ZIP (vùng chứa Open Packaging Conventions được định nghĩa trong ISO/IEC 29500-2) chứa một cây các tệp XML, hình ảnh nhúng, và siêu dữ liệu mối quan hệ. Văn bản chính của tài liệu nằm trong word/document.xml dưới dạng đánh dấu WordprocessingML; các kiểu đoạn nằm trong word/styles.xml; đánh số danh sách nằm trong word/numbering.xml; hình ảnh nhúng nằm trong word/media/. Hãy đổi tên bất kỳ `.docx` nào thành `.zip` rồi giải nén để xem cấu trúc bằng bất kỳ trình soạn văn bản nào. Định dạng này được giới thiệu cùng Microsoft Office 2007, được chuẩn hóa thành ECMA-376 vào tháng 12 năm 2006 và thành ISO/IEC 29500 vào năm 2008, và ngày nay là định dạng Word mặc định mà hàng trăm triệu tác giả sử dụng.

Một PDF (Portable Document Format) mô tả mô hình ngược lại: các trang có bố cục cố định với chữ cái ở tọa độ chính xác, phông tích hợp, và định vị tuyệt đối. Trong khi DOCX dựa trên dòng chảy (chữ tự dồn lại khi khổ trang, lề, hoặc phông thay đổi), thì PDF được định vị tới từng pixel (mỗi ký tự chiếm một điểm cụ thể trong hệ tọa độ của trang). Chuyển đổi giữa hai bên về mặt cấu trúc là một bản dịch giữa hai mô hình: một định dạng soạn thảo linh hoạt trở thành một định dạng trình bày bị đóng băng. Mọi công cụ chuyển đổi, dù là chính Microsoft Word, trình chuyển đổi không giao diện của LibreOffice, máy đám mây của Smallpdf, hay công cụ trình duyệt này, đều đối mặt với cùng khoảng cách cố hữu: nguồn mô tả ý định, đích mô tả ngoại hình, và ý định phải được cam kết về một ngoại hình cụ thể trong khi chuyển đổi.

Những cách tiếp cận chuyển đổi khác nhau chấp nhận những đánh đổi khác nhau trước khoảng cách đó. «Lưu dưới dạng PDF» của chính Word dùng cùng động cơ hiển thị mà nó dùng để vẽ tài liệu lên màn hình, nên việc chuyển đổi về cơ bản là «vẽ lên bề mặt PDF thay vì bề mặt màn hình»; độ trung thực rất tốt và văn bản trong đầu ra có thể chọn được. Các dịch vụ đám mây thường dùng LibreOffice phía máy chủ hoặc một động cơ thuộc sở hữu riêng; độ trung thực cao, văn bản chọn được, tệp được tải lên. Công cụ trong trình duyệt này dùng một đường ống khác (được mô tả ở phần sau) tối ưu cho quyền riêng tư và độ phủ (bất kỳ trình duyệt nào, bất kỳ thiết bị nào, không cần cài đặt, không cần tải lên) và chấp nhận một mức phạt về độ trung thực để đổi lại. Không cách nào là tốt nhất một cách phổ quát; mỗi cách phù hợp với một dòng công việc khác nhau.

Cách công cụ này hoạt động bên trong

Việc chuyển đổi chạy hoàn toàn trong trình duyệt của bạn qua một đường ống ba giai đoạn: mammoth.js phân tích DOCX thành HTML mang nghĩa, html2canvas (do html2pdf.js gọi) vẽ HTML đó lên một phần tử `<canvas>` ngoài màn hình bằng các nguyên thuỷ kết xuất của chính trình duyệt, và jsPDF (cũng do html2pdf.js gọi) gói canvas thành dữ liệu ảnh JPEG, đặt nó vào một trang PDF, rồi thêm điểm ngắt trang ở các ranh giới do khổ trang và lề được cấu hình ngụ ý. PDF đầu ra là một dãy hình ảnh bitmap toàn trang, một hoặc nhiều cho mỗi trang nguồn, cộng với phần đầu siêu dữ liệu PDF.

Một hệ quả quan trọng của đường ống này xứng đáng được tuyên bố thẳng thắn ngay từ đầu: PDF đầu ra dựa trên bitmap, không dựa trên văn bản. Những ký tự nhìn thấy trong thân PDF là các điểm ảnh trong một hình ảnh, không phải các toán tử định vị văn bản kèm dữ liệu phông được nhúng. Trên thực tế điều này có nghĩa là: tìm kiếm trong PDF sẽ không tìm thấy từ; sao chép-dán từ thân trang trả về không có gì hữu ích; trình đọc màn hình không thể đọc nội dung như là văn bản; cần OCR nếu PDF được đưa vào các công cụ xử lý văn bản sau đó. Đối với những dòng công việc mà một trong những điều này quan trọng (khám phá pháp lý, đệ trình về khả năng truy cập, kho lưu trữ tài liệu phục vụ tìm kiếm, bất cứ thứ gì sẽ được phần mềm phân tích), công cụ đúng là «Tệp → Lưu dưới dạng PDF» của Microsoft Word hoặc «Tệp → Xuất dưới dạng PDF» của LibreOffice, cả hai đều tạo PDF dựa trên văn bản từ nguồn DOCX với văn bản có thể chọn, có thể tìm kiếm, và truy cập được bằng trình đọc màn hình. Mục đích của công cụ này là cung cấp một PDF có hình thức sạch sẽ từ một tài liệu Word mà không tải tài liệu lên bất cứ đâu; đầu ra bitmap là cái giá phải trả cho bảo đảm riêng tư đó.

Khi bạn chọn một `.docx`, File API của trình duyệt trao các byte cho mammoth.js. mammoth coi DOCX là một gói OPC, lấy word/document.xml ra, và duyệt cây WordprocessingML: `<w:p>` trở thành `<p>`, `<w:tbl>` trở thành `<table>`, các đoạn (run) in đậm/in nghiêng trở thành đánh dấu nội tuyến, các siêu liên kết trở thành `<a>`, các hình ảnh nhúng trong `word/media/` trở thành các thẻ `<img>` nội tuyến mã hóa base64. Sau đó công cụ kết xuất HTML bên trong một vùng chứa DOM ẩn, áp dụng khổ trang và lề đã chọn làm CSS, và gọi html2pdf trên vùng chứa đó. html2pdf duyệt qua vùng chứa, chia nó thành các trang ảo tại các ranh giới trang CSS, gọi html2canvas trên mỗi miếng kích cỡ một trang, và ráp các bitmap canvas thu được thành một tài liệu jsPDF. Toàn bộ đường ống không phát ra yêu cầu mạng nào sau lần tải thư viện ban đầu.

Ba thư viện đằng sau chuyển đổi

mammoth.js là bộ phân tích DOCX. Được tạo bởi Michael Williamson theo giấy phép BSD-2-Clause và được duy trì trên GitHub tại mwilliamson/mammoth.js. Triết lý thiết kế, do chính Williamson nêu, là việc chuyển đổi nên giữ lại nội dung mang nghĩa (đoạn, tiêu đề, danh sách, bảng, chú thích, siêu liên kết, hình ảnh nhúng) thay vì định dạng trực tiếp (phông cụ thể, kích cỡ, màu sắc, khoảng cách). Tác giả lập luận rằng tài liệu di chuyển giữa các bối cảnh (Word, web, ePub, PDF) và phong cách thị giác thích hợp với một bối cảnh hiếm khi thích hợp với bối cảnh khác; mang theo cấu trúc mang nghĩa hữu ích hơn mang theo hình thức chính xác. Bundle dành cho trình duyệt khoảng 600 KB đã rút gọn.

jsPDF là bộ ghi PDF. Được James Hall (GitHub: MrRio) tạo năm 2010, hiện được yWorks GmbH đồng bảo trì, giấy phép MIT, trên GitHub tại parallax/jsPDF. jsPDF có thể ghi PDF từ văn bản, đồ họa véc-tơ, hình ảnh, và canvas HTML; trong công cụ này nó tiêu thụ các bitmap canvas từ html2canvas và ráp chúng thành các trang PDF. html2canvas của Niklas von Hertzen (giấy phép MIT) là bộ kết xuất HTML thành canvas, vẽ các nút DOM lên `<canvas>` bằng CSS đã tính của từng phần tử. html2pdf.js của Erik Koopmans (giấy phép MIT) là chất keo: nó dàn xếp html2canvas và jsPDF, xử lý phân trang, phơi ra một API cấu hình gọn gàng, và đóng gói mọi thứ thành một bundle khoảng 350 KB đã rút gọn.

Dấu chân kết hợp khi tải lần đầu khoảng 950 KB. Hai thư viện đều được trình duyệt lưu vào bộ nhớ đệm sau lần truy cập đầu tiên, nên các lần truy cập sau đó từ góc nhìn mạng là tức thời. Cả bốn dự án (mammoth.js, html2canvas, jsPDF, html2pdf.js) đều là mã nguồn mở theo giấy phép MIT hoặc BSD, và đã được triển khai trong hàng chục nghìn dự án sản xuất. Đường ống đã chín muồi, được hiểu rõ, và được kiểm nghiệm qua thực tế cho trường hợp sử dụng mà nó phục vụ: chuyển DOCX sang PDF với độ trung thực hình ảnh mà không cần kết xuất phía máy chủ.

Lược sử DOCX và chuẩn OOXML

Các dòng công việc trong thế giới thực thúc đẩy việc chuyển Word sang PDF

Những cạm bẫy thường gặp và ý nghĩa của chúng

Quyền riêng tư: tài liệu ở lại trên thiết bị của bạn

Mọi dịch vụ đám mây lớn về chuyển Word sang PDF (Smallpdf, iLovePDF, Adobe Acrobat Online, PDF24, Sejda, Soda PDF) đều tải tệp của bạn lên máy chủ của nhà cung cấp, phân tích phía máy chủ bằng LibreOffice hoặc một động cơ thuộc sở hữu riêng, kết xuất PDF, và gửi lại như một tệp tải về. Hệ quả về quyền riêng tư không tầm thường vì các tài liệu Word thường là cá nhân hoặc nhạy cảm: CV và thư xin việc chứa địa chỉ nhà, số điện thoại, và quá trình làm việc; thư xin việc và bài luận cá nhân chứa những tiết lộ chân thành; biểu mẫu nhân sự chứa kỳ vọng lương; hợp đồng chứa điều khoản thương mại; thư hồ sơ y tế chứa thông tin sức khỏe được bảo vệ; bản nháp pháp lý chứa nội dung được luật sư-thân chủ bảo mật. Các nhà cung cấp lớn công bố chính sách riêng tư cam kết xóa trong vòng một hoặc hai giờ và mã hóa khi truyền với TLS, và những nhà cung cấp lớn nhất duy trì chứng chỉ ISO/IEC 27001 và sự đồng bộ với GDPR. Họ có lý do thương mại mạnh mẽ để tôn trọng các cam kết đó. Nhưng «xóa trong vòng một giờ» không phải là «chưa bao giờ thấy»: trong khoảng giờ đó, nội dung tệp ở trong hạ tầng của họ, có thể truy cập bởi mọi tiến trình hoặc con người có quyền phù hợp, và hiện diện trong các bản ghi cùng bản sao lưu theo thời hạn lưu giữ áp dụng.

Trình chuyển đổi này không tải lên bất cứ thứ gì. mammoth.js và html2pdf.js chạy hoàn toàn trong tab trình duyệt của bạn; các byte tệp được đọc bởi File API, xử lý trong JavaScript, và PDF đầu ra được trả về cùng tab dưới dạng Blob để tải xuống. Bạn có thể xác minh việc không tải lên bằng cách mở công cụ dành cho nhà phát triển của trình duyệt sang tab Mạng trước khi nhấp Chuyển đổi: không có yêu cầu nào được tạo ra chứa nội dung tệp của bạn. Lưu lượng mạng duy nhất là việc tải hai thư viện từ CDN một lần duy nhất ở lần truy cập đầu tiên (tổng khoảng 950 KB đã rút gọn), xảy ra một lần rồi ở lại trong bộ đệm trình duyệt. Bật chế độ máy bay sau khi trang đã tải xong và trình chuyển đổi vẫn hoạt động trên các tệp cục bộ. Đánh đổi, như đã nói ở phần công cụ hoạt động ra sao, là PDF đầu ra dựa trên bitmap: nó mất đi khả năng chọn và tìm kiếm văn bản mà các trình chuyển đổi phía máy chủ vẫn giữ. Đối với hầu hết dòng công việc cá nhân Word sang PDF (CV, thư xin việc, ghi chú nội bộ, bản nháp hợp đồng, biểu mẫu xin việc), đầu ra bitmap hoàn toàn ổn và bảo đảm riêng tư xứng đáng với sự đánh đổi. Đối với tài liệu cần văn bản chọn được trong đầu ra, câu trả lời đúng là «Lưu dưới dạng PDF» của chính Word hoặc «Xuất dưới dạng PDF» của LibreOffice, cả hai cũng có thể chạy ngoại tuyến và riêng tư nếu tài liệu không cần rời khỏi máy cục bộ.

Khi một công cụ khác là lựa chọn đúng

Tính năng

Câu hỏi thường gặp

Những định dạng Word nào được hỗ trợ?

Trình chuyển đổi này hỗ trợ các tệp .docx (Microsoft Word 2007 trở lên). Các tệp .doc cũ không được hỗ trợ; bạn có thể chuyển đổi chúng sang .docx trong Microsoft Word sau đó sử dụng công cụ này.

Định dạng của tôi có được bảo toàn không?

Hầu hết các định dạng được bảo toàn, bao gồm phông chữ, kích thước, màu sắc và bố cục cơ bản. Tuy nhiên, các yếu tố phức tạp như bảng nâng cao, bố cục nhiều cột và các đối tượng nhúng có thể được đơn giản hóa hoặc điều chỉnh khi chuyển đổi.

Tài liệu Word của tôi có được gửi đến máy chủ không?

Không. Tất cả việc chuyển đổi diễn ra cục bộ trong trình duyệt của bạn qua các thư viện Mammoth và html2pdf. Tệp Word của bạn không bao giờ rời khỏi thiết bị của bạn, để có sự riêng tư và bảo mật hoàn toàn.

Tôi có thể chuyển đổi nhiều tệp cùng lúc không?

Công cụ này chuyển đổi một tệp Word tại một thời điểm. Cho mỗi chuyển đổi, chỉ cần tải lên một tệp .docx mới và chuyển đổi nó.

Giới hạn kích thước tệp là bao nhiêu?

Các tệp lên đến 25 MB được hỗ trợ. Các tệp rất lớn có thể mất nhiều thời gian hơn tùy thuộc vào bộ nhớ khả dụng trong trình duyệt của bạn.

Tôi có thể điều chỉnh lề và kích thước trang không?

Có. Trước khi chuyển đổi, bạn có thể chọn kích thước trang (A4 hoặc Letter) và độ rộng của lề (Bình thường, Hẹp hoặc Rộng).

Thêm câu hỏi thường gặp

Vì sao văn bản trong PDF không thể chọn được?

Công cụ này tạo ra PDF dựa trên bitmap: nó kết xuất tài liệu Word thành HTML, dùng trình duyệt vẽ HTML đó lên canvas ngoài màn hình, rồi nhúng canvas dưới dạng hình ảnh vào PDF. Vì thế PDF đầu ra chứa các bức ảnh của trang, không phải các ký tự có vị trí. Sao chép-dán từ thân trang không trả về thứ gì hữu ích, và chức năng tìm trong PDF sẽ không tìm thấy từ. Đối với các dòng công việc cần văn bản chọn được (khám phá pháp lý, cơ sở dữ liệu nghiên cứu, khả năng tiếp cận), hãy dùng «Tệp → Lưu dưới dạng PDF» của Microsoft Word hoặc «Tệp → Xuất dưới dạng PDF» của LibreOffice; cả hai đều tạo PDF dựa trên văn bản từ nguồn DOCX.

Vì sao phông chữ khác với tài liệu Word gốc của tôi?

mammoth.js, thư viện công cụ này dùng để phân tích DOCX, cố ý tập trung vào nội dung mang nghĩa (đoạn, tiêu đề, danh sách, bảng) thay vì định dạng trực tiếp (phông cụ thể, kích cỡ chính xác, màu). Trình duyệt kết xuất HTML kết quả bằng các phông được cài cục bộ. Nếu tài liệu Word của bạn dùng một phông công ty hoặc thương hiệu tùy chỉnh chỉ cài trên máy làm việc, PDF sẽ hiện trong phông dự phòng của trình duyệt (thường là một phông sans-serif chung chung). Để giữ phông, hãy cài cùng phông trên thiết bị của bạn, hoặc dùng «Lưu dưới dạng PDF» của chính Word, vốn nhúng các phông mà tài liệu của bạn tham chiếu.

Công cụ này có hoạt động ngoại tuyến không?

Có, sau lần truy cập đầu tiên. Các thư viện (mammoth khoảng 600 KB, html2pdf khoảng 350 KB) được tải một lần từ CDN rồi được trình duyệt lưu vào bộ đệm. Các lần truy cập sau vào trình chuyển đổi vẫn hoạt động hoàn toàn ngoại tuyến, miễn là bộ đệm trình duyệt không bị xóa giữa chừng. Bản thân việc chuyển đổi chưa bao giờ cần mạng; chỉ lần tải thư viện ban đầu là cần. Bạn có thể xác minh bằng cách bật chế độ máy bay sau khi mở trang một lần và chuyển một tệp DOCX cục bộ.

Tôi có thể chuyển đổi tệp .doc cũ (Word 97-2003) không?

Không. Công cụ này chỉ nhận .docx (Office Open XML), định dạng được giới thiệu trong Word 2007. Định dạng nhị phân .doc cũ cần một bộ phân tích khác (mammoth chỉ xử lý .docx dựa trên XML). Để chuyển một tệp .doc, hãy mở nó trước trong Word hoặc LibreOffice và Lưu thành .docx, sau đó chuyển ở đây. Việc chuyển .doc sang .docx là thao tác một lần nhấp trong cả hai công cụ và giữ nguyên nội dung.

Các siêu liên kết có nhấp được trong PDF kết quả không?

Các siêu liên kết trong tài liệu nguồn xuất hiện dưới dạng văn bản có kiểu thị giác (xanh, gạch dưới) trong PDF nhưng không tương tác được: vì thân PDF là một hình ảnh bitmap của HTML đã kết xuất, việc nhấp vào văn bản liên kết trong trình đọc PDF sẽ không dẫn đi đâu. Nếu bạn cần các liên kết nhấp được trong PDF đầu ra, hãy dùng «Lưu dưới dạng PDF» của Word (vốn bảo toàn các chú thích liên kết PDF) hoặc «Xuất dưới dạng PDF» của LibreOffice. Cả hai đều tạo PDF mà siêu liên kết vẫn còn hoạt động sau khi chuyển đổi.

Có tương đương máy tính bàn hoặc dòng lệnh không?

Có, nhiều. Cách tiếp cận tiêu chuẩn phía máy chủ và dòng lệnh là chế độ không giao diện của LibreOffice: soffice --headless --convert-to pdf input.docx --outdir output/ chuyển tệp tại chỗ, thân thiện với theo lô, không cần GUI. LibreOffice có thể cài trên Linux, macOS, và Windows; cùng dòng lệnh hoạt động ở mọi nơi. Để có đầu ra giống Word từng pixel theo cách lập trình, Microsoft Word + tự động hóa COM PowerShell trên Windows là tiêu chuẩn vàng (yêu cầu Word đã cài). Các thư viện mammoth.js và html2pdf.js mà công cụ này dùng cũng chạy trong Node.js để chuyển đổi bằng kịch bản, không cần trình duyệt, với cùng hồ sơ độ trung thực. Pandoc kèm động cơ LaTeX là một lựa chọn khác cho dòng công việc xuất bản học thuật.

Công cụ liên quan