Trình Chuyển Đổi Word Sang PDF
Chuyển đổi tệp Word (.docx) của bạn sang PDF tức thì. Không cần đăng ký. Tệp của bạn không bao giờ rời khỏi thiết bị.
Hỗ trợ .docx · đến 25 MB
Cách hoạt động
- Tải lên tệp Word: thả hoặc chọn tệp .docx để chuyển đổi.
- Cấu hình tùy chọn: chọn kích thước trang và lề mong muốn.
- Chuyển đổi: nhấp « Chuyển sang PDF » để tạo PDF của bạn. Việc chuyển đổi diễn ra tức thì trong trình duyệt của bạn.
Tại sao chuyển sang PDF?
PDF là định dạng tài liệu phổ quát. Chuyển tài liệu Word sang PDF đảm bảo định dạng nhất quán trên tất cả các thiết bị và hệ điều hành, làm cho tài liệu chỉ đọc để tránh chỉnh sửa vô tình, giảm kích thước tệp và phù hợp lý tưởng cho chia sẻ, lưu trữ và gửi chuyên nghiệp. PDF tương thích ở khắp mọi nơi và bảo toàn định dạng gốc của bạn.
«DOCX sang PDF» thực sự có nghĩa là gì
Tệp `.docx` không phải là một tài liệu duy nhất như khi nó xuất hiện trong Word. Đó là một kho lưu trữ ZIP (vùng chứa Open Packaging Conventions được định nghĩa trong ISO/IEC 29500-2) chứa một cây các tệp XML, hình ảnh nhúng, và siêu dữ liệu mối quan hệ. Văn bản chính của tài liệu nằm trong word/document.xml dưới dạng đánh dấu WordprocessingML; các kiểu đoạn nằm trong word/styles.xml; đánh số danh sách nằm trong word/numbering.xml; hình ảnh nhúng nằm trong word/media/. Hãy đổi tên bất kỳ `.docx` nào thành `.zip` rồi giải nén để xem cấu trúc bằng bất kỳ trình soạn văn bản nào. Định dạng này được giới thiệu cùng Microsoft Office 2007, được chuẩn hóa thành ECMA-376 vào tháng 12 năm 2006 và thành ISO/IEC 29500 vào năm 2008, và ngày nay là định dạng Word mặc định mà hàng trăm triệu tác giả sử dụng.
Một PDF (Portable Document Format) mô tả mô hình ngược lại: các trang có bố cục cố định với chữ cái ở tọa độ chính xác, phông tích hợp, và định vị tuyệt đối. Trong khi DOCX dựa trên dòng chảy (chữ tự dồn lại khi khổ trang, lề, hoặc phông thay đổi), thì PDF được định vị tới từng pixel (mỗi ký tự chiếm một điểm cụ thể trong hệ tọa độ của trang). Chuyển đổi giữa hai bên về mặt cấu trúc là một bản dịch giữa hai mô hình: một định dạng soạn thảo linh hoạt trở thành một định dạng trình bày bị đóng băng. Mọi công cụ chuyển đổi, dù là chính Microsoft Word, trình chuyển đổi không giao diện của LibreOffice, máy đám mây của Smallpdf, hay công cụ trình duyệt này, đều đối mặt với cùng khoảng cách cố hữu: nguồn mô tả ý định, đích mô tả ngoại hình, và ý định phải được cam kết về một ngoại hình cụ thể trong khi chuyển đổi.
Những cách tiếp cận chuyển đổi khác nhau chấp nhận những đánh đổi khác nhau trước khoảng cách đó. «Lưu dưới dạng PDF» của chính Word dùng cùng động cơ hiển thị mà nó dùng để vẽ tài liệu lên màn hình, nên việc chuyển đổi về cơ bản là «vẽ lên bề mặt PDF thay vì bề mặt màn hình»; độ trung thực rất tốt và văn bản trong đầu ra có thể chọn được. Các dịch vụ đám mây thường dùng LibreOffice phía máy chủ hoặc một động cơ thuộc sở hữu riêng; độ trung thực cao, văn bản chọn được, tệp được tải lên. Công cụ trong trình duyệt này dùng một đường ống khác (được mô tả ở phần sau) tối ưu cho quyền riêng tư và độ phủ (bất kỳ trình duyệt nào, bất kỳ thiết bị nào, không cần cài đặt, không cần tải lên) và chấp nhận một mức phạt về độ trung thực để đổi lại. Không cách nào là tốt nhất một cách phổ quát; mỗi cách phù hợp với một dòng công việc khác nhau.
Cách công cụ này hoạt động bên trong
Việc chuyển đổi chạy hoàn toàn trong trình duyệt của bạn qua một đường ống ba giai đoạn: mammoth.js phân tích DOCX thành HTML mang nghĩa, html2canvas (do html2pdf.js gọi) vẽ HTML đó lên một phần tử `<canvas>` ngoài màn hình bằng các nguyên thuỷ kết xuất của chính trình duyệt, và jsPDF (cũng do html2pdf.js gọi) gói canvas thành dữ liệu ảnh JPEG, đặt nó vào một trang PDF, rồi thêm điểm ngắt trang ở các ranh giới do khổ trang và lề được cấu hình ngụ ý. PDF đầu ra là một dãy hình ảnh bitmap toàn trang, một hoặc nhiều cho mỗi trang nguồn, cộng với phần đầu siêu dữ liệu PDF.
Một hệ quả quan trọng của đường ống này xứng đáng được tuyên bố thẳng thắn ngay từ đầu: PDF đầu ra dựa trên bitmap, không dựa trên văn bản. Những ký tự nhìn thấy trong thân PDF là các điểm ảnh trong một hình ảnh, không phải các toán tử định vị văn bản kèm dữ liệu phông được nhúng. Trên thực tế điều này có nghĩa là: tìm kiếm trong PDF sẽ không tìm thấy từ; sao chép-dán từ thân trang trả về không có gì hữu ích; trình đọc màn hình không thể đọc nội dung như là văn bản; cần OCR nếu PDF được đưa vào các công cụ xử lý văn bản sau đó. Đối với những dòng công việc mà một trong những điều này quan trọng (khám phá pháp lý, đệ trình về khả năng truy cập, kho lưu trữ tài liệu phục vụ tìm kiếm, bất cứ thứ gì sẽ được phần mềm phân tích), công cụ đúng là «Tệp → Lưu dưới dạng PDF» của Microsoft Word hoặc «Tệp → Xuất dưới dạng PDF» của LibreOffice, cả hai đều tạo PDF dựa trên văn bản từ nguồn DOCX với văn bản có thể chọn, có thể tìm kiếm, và truy cập được bằng trình đọc màn hình. Mục đích của công cụ này là cung cấp một PDF có hình thức sạch sẽ từ một tài liệu Word mà không tải tài liệu lên bất cứ đâu; đầu ra bitmap là cái giá phải trả cho bảo đảm riêng tư đó.
Khi bạn chọn một `.docx`, File API của trình duyệt trao các byte cho mammoth.js. mammoth coi DOCX là một gói OPC, lấy word/document.xml ra, và duyệt cây WordprocessingML: `<w:p>` trở thành `<p>`, `<w:tbl>` trở thành `<table>`, các đoạn (run) in đậm/in nghiêng trở thành đánh dấu nội tuyến, các siêu liên kết trở thành `<a>`, các hình ảnh nhúng trong `word/media/` trở thành các thẻ `<img>` nội tuyến mã hóa base64. Sau đó công cụ kết xuất HTML bên trong một vùng chứa DOM ẩn, áp dụng khổ trang và lề đã chọn làm CSS, và gọi html2pdf trên vùng chứa đó. html2pdf duyệt qua vùng chứa, chia nó thành các trang ảo tại các ranh giới trang CSS, gọi html2canvas trên mỗi miếng kích cỡ một trang, và ráp các bitmap canvas thu được thành một tài liệu jsPDF. Toàn bộ đường ống không phát ra yêu cầu mạng nào sau lần tải thư viện ban đầu.
Ba thư viện đằng sau chuyển đổi
mammoth.js là bộ phân tích DOCX. Được tạo bởi Michael Williamson theo giấy phép BSD-2-Clause và được duy trì trên GitHub tại mwilliamson/mammoth.js. Triết lý thiết kế, do chính Williamson nêu, là việc chuyển đổi nên giữ lại nội dung mang nghĩa (đoạn, tiêu đề, danh sách, bảng, chú thích, siêu liên kết, hình ảnh nhúng) thay vì định dạng trực tiếp (phông cụ thể, kích cỡ, màu sắc, khoảng cách). Tác giả lập luận rằng tài liệu di chuyển giữa các bối cảnh (Word, web, ePub, PDF) và phong cách thị giác thích hợp với một bối cảnh hiếm khi thích hợp với bối cảnh khác; mang theo cấu trúc mang nghĩa hữu ích hơn mang theo hình thức chính xác. Bundle dành cho trình duyệt khoảng 600 KB đã rút gọn.
jsPDF là bộ ghi PDF. Được James Hall (GitHub: MrRio) tạo năm 2010, hiện được yWorks GmbH đồng bảo trì, giấy phép MIT, trên GitHub tại parallax/jsPDF. jsPDF có thể ghi PDF từ văn bản, đồ họa véc-tơ, hình ảnh, và canvas HTML; trong công cụ này nó tiêu thụ các bitmap canvas từ html2canvas và ráp chúng thành các trang PDF. html2canvas của Niklas von Hertzen (giấy phép MIT) là bộ kết xuất HTML thành canvas, vẽ các nút DOM lên `<canvas>` bằng CSS đã tính của từng phần tử. html2pdf.js của Erik Koopmans (giấy phép MIT) là chất keo: nó dàn xếp html2canvas và jsPDF, xử lý phân trang, phơi ra một API cấu hình gọn gàng, và đóng gói mọi thứ thành một bundle khoảng 350 KB đã rút gọn.
Dấu chân kết hợp khi tải lần đầu khoảng 950 KB. Hai thư viện đều được trình duyệt lưu vào bộ nhớ đệm sau lần truy cập đầu tiên, nên các lần truy cập sau đó từ góc nhìn mạng là tức thời. Cả bốn dự án (mammoth.js, html2canvas, jsPDF, html2pdf.js) đều là mã nguồn mở theo giấy phép MIT hoặc BSD, và đã được triển khai trong hàng chục nghìn dự án sản xuất. Đường ống đã chín muồi, được hiểu rõ, và được kiểm nghiệm qua thực tế cho trường hợp sử dụng mà nó phục vụ: chuyển DOCX sang PDF với độ trung thực hình ảnh mà không cần kết xuất phía máy chủ.
Lược sử DOCX và chuẩn OOXML
- Word .doc (1983 đến 2007). Định dạng nhị phân `.doc` của Microsoft, được mọi phiên bản Word từ Word 1.0 cho đến Word 2003 sử dụng. Có chủ sở hữu, không có tài liệu công khai trong phần lớn thời gian tồn tại, bị các đối thủ kỹ thuật đảo để hỗ trợ khả năng tương tác.
- OOXML được công bố (tháng 11 năm 2005). Microsoft công bố bản nháp đầu tiên của Office Open XML, một định dạng dựa trên XML nhằm thay thế các nhị phân `.doc`, `.xls`, và `.ppt`. Bản đệ trình được gửi tới Ecma International để chuẩn hóa.
- ECMA-376 phiên bản đầu (tháng 12 năm 2006). Ecma International phê chuẩn OOXML thành ECMA-376 phiên bản đầu: chuẩn chính thức đầu tiên cho cái mà hiện là `.docx`, `.xlsx`, `.pptx`. Đặc tả vượt 6.000 trang.
- Office 2007 ra mắt (tháng 1 năm 2007). Microsoft Office 2007 được phát hành với `.docx` là định dạng lưu mặc định. Office 2003 nhận một gói tương thích miễn phí cho phép nó mở các định dạng mới.
- Phê chuẩn ISO/IEC 29500:2008 (tháng 11 năm 2008). Sau một quy trình đường tắt gây tranh cãi, vốn thu hút chỉ trích gay gắt từ cộng đồng mã nguồn mở và phe OpenDocument Format (ODF), ISO và IEC chấp nhận OOXML thành ISO/IEC 29500:2008. Đặc tả định nghĩa hai biến thể: Strict (sạch và tuân thủ ISO) và Transitional (biến thể mà Word thực sự ghi ra theo mặc định, với các cấu trúc tương thích lùi được bảo lưu).
- Hôm nay (2026). Hầu hết mọi `.docx` trong thế giới thực đều là OOXML Transitional, được sinh ra bởi Word, LibreOffice, Google Docs, Apple Pages, WPS Office, hoặc một trong nhiều công cụ tài liệu SaaS. Định dạng này giờ đã hiện diện khắp nơi: là mặc định ở mọi tầng của nền kinh tế sáng tác tài liệu, từ tác giả cá nhân tới hệ thống quản lý tài liệu doanh nghiệp.
Các dòng công việc trong thế giới thực thúc đẩy việc chuyển Word sang PDF
- Gửi CV hoặc hồ sơ tới nhà tuyển dụng và các nền tảng việc làm. Mọi nền tảng việc làm lớn (LinkedIn Recruiter, Indeed, Workday, Greenhouse, các cổng việc làm chính phủ) đều mong đợi PDF. Tác giả soạn thảo trong Word và chuyển sang PDF trước khi gửi. Quyền riêng tư quan trọng vì CV chứa thông tin liên lạc cá nhân, địa chỉ, và quá trình làm việc.
- Thư xin việc và bài luận hồ sơ. Các trường đại học, chương trình học bổng, hồ sơ chính phủ, và tuyển dụng doanh nghiệp đều hội tụ về PDF làm định dạng đệ trình. Word vẫn là công cụ soạn thảo được ưa chuộng vì kiểm tra ngữ pháp, ghi chú và hỗ trợ chỉnh sửa; PDF là định dạng giao tài liệu vì định dạng bị khóa.
- Hợp đồng và tài liệu pháp lý trước khi ký. Hãy chuyển sang PDF trước khi luân chuyển bản nháp hợp đồng để bên đối tác nhìn thấy một tài liệu có bố cục cố định. Sau khi ký, bản PDF đã ký trở thành phiên bản chính thức. Việc chuyển đổi phải xảy ra trên một thiết bị đáng tin cậy vì tài liệu là mật.
- Bài báo học thuật, luận văn, và bản gửi tới tạp chí. Hầu hết tạp chí và kho lưu trữ trường đại học đều chấp nhận PDF làm định dạng đệ trình. Tác giả soạn thảo trong Word (hoặc LaTeX) và đệ trình PDF. Đối với người dùng LaTeX công cụ này không liên quan; nhưng với dân số rất lớn người dùng Word trong khoa học xã hội, nhân văn, quản trị, và luật, đây là dòng công việc tiêu chuẩn.
- Báo cáo nội bộ và ảnh chụp lưu trữ. Chuyển một báo cáo Word thành PDF để lưu trữ dài lâu. PDF là bản ghi chính thức; nguồn Word có thể tiếp tục tiến hóa như một bản nháp. Nhiều ngành chịu quản chế (tài chính, y tế, pháp lý) yêu cầu PDF cho các bản lưu trữ tuân thủ.
- Phân phối qua email một cách đáng tin cậy. PDF được kết xuất nhất quán trong các trình email, điều mà `.docx` không làm được. Outlook, Gmail, Apple Mail, và các ứng dụng email di động đều mở PDF nội tuyến; `.docx` yêu cầu người nhận có Word hoặc một ứng dụng tương thích cài đặt sẵn. PDF là định dạng phân phối ít ma sát nhất cho tài liệu gửi tới khán giả không chuyên kỹ thuật.
Những cạm bẫy thường gặp và ý nghĩa của chúng
- Văn bản trong PDF không thể chọn hoặc tìm kiếm. Đây là do thiết kế chứ không phải lỗi. Đường ống rasterise HTML đã kết xuất, nên thân PDF là một hình ảnh bitmap. Tìm trong PDF, sao chép-dán, và quyền truy cập của trình đọc màn hình tới văn bản trong thân sẽ không hoạt động. Đối với tài liệu mà văn bản có thể chọn quan trọng (pháp lý, lưu trữ, khả năng tiếp cận, cơ sở dữ liệu tài liệu), hãy dùng «Tệp → Lưu dưới dạng PDF» của Microsoft Word hoặc «Tệp → Xuất dưới dạng PDF» của LibreOffice. Cả hai đều tạo PDF dựa trên văn bản từ nguồn DOCX.
- Phông trong PDF không khớp với tài liệu Word gốc. mammoth.js cố ý tập trung vào nội dung mang nghĩa và không chuyển siêu dữ liệu phông trực tiếp; trình duyệt kết xuất HTML bằng các phông có sẵn cục bộ. Nếu tài liệu Word của bạn dùng một phông tùy chỉnh của công ty chỉ được cài trên máy làm việc, PDF sẽ được kết xuất bằng phông dự phòng của trình duyệt. Cách khắc phục là cài cùng phông trên thiết bị thực hiện chuyển đổi, hoặc dùng «Lưu dưới dạng PDF» của Word vốn nhúng các phông mà tài liệu tham chiếu.
- Các bảng phức tạp bị đơn giản hóa hoặc hiển thị không hoàn hảo. mammoth xử lý các bảng tiêu chuẩn (hàng, cột, đường viền ô) tốt. Các ô gộp nhiều lần, bảng lồng sâu, và bảng có định dạng có điều kiện phức tạp có thể bị đơn giản hóa hoặc vỡ về mặt thị giác vì đầu ra HTML của mammoth là một tập con của những gì mà bộ kết xuất Word tạo ra. Đối với báo cáo nặng bảng, công cụ đúng là xuất PDF gốc của Word.
- Bố cục nhiều cột trở thành một cột. mammoth không bảo toàn chỉ thị `<w:cols>` của Word. Một bài báo hai cột kiểu báo chí trở thành một cột trong HTML kết quả và do đó trong PDF. Đối với tài liệu thực sự cần bố cục cột trong đầu ra, hãy dùng «Tệp → Lưu dưới dạng PDF» của Word hoặc chế độ không giao diện của LibreOffice; cả hai đều bảo toàn cấu trúc cột trong quá trình chuyển đổi.
- Đầu trang, chân trang, và số trang từ nguồn bị mất. mammoth tập trung vào thân tài liệu và không chuyển các đầu trang, chân trang, hay trường số trang của Word. html2pdf thêm phân trang riêng của nó nhưng không thể chèn các đầu/chân trang Word gốc. Phương án cho tài liệu cần các đầu/chân trang gốc là chuyển đổi qua Word, hoặc chuyển đổi ở đây rồi thêm số trang ở phía sau bằng Số Trang PDF Trực Tuyến Miễn Phí.
- Bình luận và theo dõi thay đổi không xuất hiện. Theo mặc định mammoth coi bình luận và dấu sửa đổi là siêu dữ liệu và bỏ qua chúng. PDF kết quả phản ánh tài liệu với tất cả sửa đổi được xem là đã chấp nhận (trạng thái của
word/document.xmlkhi bỏ qua các phần tử sửa đổi). Nếu bạn cần bình luận hoặc đánh dấu hiển thị trong PDF, hãy dùng «Tệp → Lưu dưới dạng PDF» của Word với tùy chọn «In đánh dấu» bật, hoặc chấp nhận/từ chối tất cả sửa đổi trong Word trước rồi chuyển đổi. - Tài liệu rất lớn có thể làm đông tab. mammoth và html2canvas đều tải toàn bộ tài liệu vào bộ nhớ và xử lý đồng bộ. Tài liệu trên 100 trang hoặc có nhiều ảnh nhúng có thể làm cạn bộ nhớ trình duyệt, đặc biệt trên thiết bị di động có 4 GB RAM trở xuống. Cách giảm nhẹ là chia tài liệu trong Word trước, chuyển đổi từng phần riêng, rồi nối các PDF thu được bằng Ghép PDF Trực Tuyến Miễn Phí.
Quyền riêng tư: tài liệu ở lại trên thiết bị của bạn
Mọi dịch vụ đám mây lớn về chuyển Word sang PDF (Smallpdf, iLovePDF, Adobe Acrobat Online, PDF24, Sejda, Soda PDF) đều tải tệp của bạn lên máy chủ của nhà cung cấp, phân tích phía máy chủ bằng LibreOffice hoặc một động cơ thuộc sở hữu riêng, kết xuất PDF, và gửi lại như một tệp tải về. Hệ quả về quyền riêng tư không tầm thường vì các tài liệu Word thường là cá nhân hoặc nhạy cảm: CV và thư xin việc chứa địa chỉ nhà, số điện thoại, và quá trình làm việc; thư xin việc và bài luận cá nhân chứa những tiết lộ chân thành; biểu mẫu nhân sự chứa kỳ vọng lương; hợp đồng chứa điều khoản thương mại; thư hồ sơ y tế chứa thông tin sức khỏe được bảo vệ; bản nháp pháp lý chứa nội dung được luật sư-thân chủ bảo mật. Các nhà cung cấp lớn công bố chính sách riêng tư cam kết xóa trong vòng một hoặc hai giờ và mã hóa khi truyền với TLS, và những nhà cung cấp lớn nhất duy trì chứng chỉ ISO/IEC 27001 và sự đồng bộ với GDPR. Họ có lý do thương mại mạnh mẽ để tôn trọng các cam kết đó. Nhưng «xóa trong vòng một giờ» không phải là «chưa bao giờ thấy»: trong khoảng giờ đó, nội dung tệp ở trong hạ tầng của họ, có thể truy cập bởi mọi tiến trình hoặc con người có quyền phù hợp, và hiện diện trong các bản ghi cùng bản sao lưu theo thời hạn lưu giữ áp dụng.
Trình chuyển đổi này không tải lên bất cứ thứ gì. mammoth.js và html2pdf.js chạy hoàn toàn trong tab trình duyệt của bạn; các byte tệp được đọc bởi File API, xử lý trong JavaScript, và PDF đầu ra được trả về cùng tab dưới dạng Blob để tải xuống. Bạn có thể xác minh việc không tải lên bằng cách mở công cụ dành cho nhà phát triển của trình duyệt sang tab Mạng trước khi nhấp Chuyển đổi: không có yêu cầu nào được tạo ra chứa nội dung tệp của bạn. Lưu lượng mạng duy nhất là việc tải hai thư viện từ CDN một lần duy nhất ở lần truy cập đầu tiên (tổng khoảng 950 KB đã rút gọn), xảy ra một lần rồi ở lại trong bộ đệm trình duyệt. Bật chế độ máy bay sau khi trang đã tải xong và trình chuyển đổi vẫn hoạt động trên các tệp cục bộ. Đánh đổi, như đã nói ở phần công cụ hoạt động ra sao, là PDF đầu ra dựa trên bitmap: nó mất đi khả năng chọn và tìm kiếm văn bản mà các trình chuyển đổi phía máy chủ vẫn giữ. Đối với hầu hết dòng công việc cá nhân Word sang PDF (CV, thư xin việc, ghi chú nội bộ, bản nháp hợp đồng, biểu mẫu xin việc), đầu ra bitmap hoàn toàn ổn và bảo đảm riêng tư xứng đáng với sự đánh đổi. Đối với tài liệu cần văn bản chọn được trong đầu ra, câu trả lời đúng là «Lưu dưới dạng PDF» của chính Word hoặc «Xuất dưới dạng PDF» của LibreOffice, cả hai cũng có thể chạy ngoại tuyến và riêng tư nếu tài liệu không cần rời khỏi máy cục bộ.
Khi một công cụ khác là lựa chọn đúng
- PDF đầu ra cần có văn bản chọn được, tìm kiếm được. Khám phá pháp lý, kho lưu trữ tài liệu, đệ trình về khả năng tiếp cận, bất cứ thứ gì sẽ được công cụ tìm kiếm lập chỉ mục hoặc trình đọc màn hình đọc: đầu ra của công cụ này chỉ là bitmap và sẽ không phục vụ được. Hãy dùng «Tệp → Lưu dưới dạng PDF» của Microsoft Word hoặc «Tệp → Xuất dưới dạng PDF» của LibreOffice. Cả hai có thể chạy ngoại tuyến và tạo PDF dựa trên văn bản.
- Tài liệu có bố cục phức tạp, phương trình, hoặc đối tượng nhúng. Báo nhiều cột, bài học thuật nặng toán, tài liệu có biểu đồ Excel hoặc slide PowerPoint nhúng, bảng phức tạp có nhiều ô gộp: những trường hợp này được lợi từ bộ kết xuất gốc của Word hoặc chuyển đổi không giao diện của LibreOffice. Cách tiếp cận «ngữ nghĩa trước» của mammoth có chủ ý bỏ qua hoặc đơn giản hóa những thứ nó không thể biểu diễn sạch sẽ.
- Bạn cần chuyển đổi nhiều tệp theo lô. Công cụ này nhận một tài liệu mỗi lần và đường ống kết xuất là một luồng đơn. Đối với theo lô, lệnh CLI tiêu chuẩn là
soffice --headless --convert-to pdf *.docx --outdir output/dùng LibreOffice. Một lựa chọn khác là chính các thư viện mammoth và html2pdf mà công cụ này dùng cũng chạy trong Node.js để chuyển đổi bằng kịch bản với cùng hồ sơ độ trung thực. - Tài liệu rất lớn (trên 100 trang hoặc có nhiều ảnh nặng). mammoth + html2canvas tải và xử lý toàn bộ tài liệu trong bộ nhớ; tài liệu lớn có thể đóng băng một tab trình duyệt, đặc biệt trên thiết bị di động. Hoặc bạn chia trong Word trước và chuyển đổi từng phần riêng (rồi gộp bằng Ghép PDF Trực Tuyến Miễn Phí), hoặc dùng một công cụ máy tính bàn truyền tài liệu theo luồng từ đĩa: Word, LibreOffice, hoặc một trình chuyển đổi dòng lệnh.
Tính năng
- Chuyển đổi nhanh: chuyển đổi Word → PDF tức thì, không phải chờ đợi.
- Có thể tùy chỉnh: chọn kích thước trang (A4 hoặc Letter) và lề.
- Quyền riêng tư: tất cả việc xử lý là cục bộ trong trình duyệt của bạn. Tệp không bao giờ được gửi đến máy chủ.
- Đơn giản: kéo và thả tệp Word của bạn và nhấp chuyển đổi.
- Một tệp tại một thời điểm: chuyển đổi một tài liệu Word tại một thời điểm để có kết quả tối ưu.
Câu hỏi thường gặp
Những định dạng Word nào được hỗ trợ?
Trình chuyển đổi này hỗ trợ các tệp .docx (Microsoft Word 2007 trở lên). Các tệp .doc cũ không được hỗ trợ; bạn có thể chuyển đổi chúng sang .docx trong Microsoft Word sau đó sử dụng công cụ này.
Định dạng của tôi có được bảo toàn không?
Hầu hết các định dạng được bảo toàn, bao gồm phông chữ, kích thước, màu sắc và bố cục cơ bản. Tuy nhiên, các yếu tố phức tạp như bảng nâng cao, bố cục nhiều cột và các đối tượng nhúng có thể được đơn giản hóa hoặc điều chỉnh khi chuyển đổi.
Tài liệu Word của tôi có được gửi đến máy chủ không?
Không. Tất cả việc chuyển đổi diễn ra cục bộ trong trình duyệt của bạn qua các thư viện Mammoth và html2pdf. Tệp Word của bạn không bao giờ rời khỏi thiết bị của bạn, để có sự riêng tư và bảo mật hoàn toàn.
Tôi có thể chuyển đổi nhiều tệp cùng lúc không?
Công cụ này chuyển đổi một tệp Word tại một thời điểm. Cho mỗi chuyển đổi, chỉ cần tải lên một tệp .docx mới và chuyển đổi nó.
Giới hạn kích thước tệp là bao nhiêu?
Các tệp lên đến 25 MB được hỗ trợ. Các tệp rất lớn có thể mất nhiều thời gian hơn tùy thuộc vào bộ nhớ khả dụng trong trình duyệt của bạn.
Tôi có thể điều chỉnh lề và kích thước trang không?
Có. Trước khi chuyển đổi, bạn có thể chọn kích thước trang (A4 hoặc Letter) và độ rộng của lề (Bình thường, Hẹp hoặc Rộng).
Thêm câu hỏi thường gặp
Vì sao văn bản trong PDF không thể chọn được?
Công cụ này tạo ra PDF dựa trên bitmap: nó kết xuất tài liệu Word thành HTML, dùng trình duyệt vẽ HTML đó lên canvas ngoài màn hình, rồi nhúng canvas dưới dạng hình ảnh vào PDF. Vì thế PDF đầu ra chứa các bức ảnh của trang, không phải các ký tự có vị trí. Sao chép-dán từ thân trang không trả về thứ gì hữu ích, và chức năng tìm trong PDF sẽ không tìm thấy từ. Đối với các dòng công việc cần văn bản chọn được (khám phá pháp lý, cơ sở dữ liệu nghiên cứu, khả năng tiếp cận), hãy dùng «Tệp → Lưu dưới dạng PDF» của Microsoft Word hoặc «Tệp → Xuất dưới dạng PDF» của LibreOffice; cả hai đều tạo PDF dựa trên văn bản từ nguồn DOCX.
Vì sao phông chữ khác với tài liệu Word gốc của tôi?
mammoth.js, thư viện công cụ này dùng để phân tích DOCX, cố ý tập trung vào nội dung mang nghĩa (đoạn, tiêu đề, danh sách, bảng) thay vì định dạng trực tiếp (phông cụ thể, kích cỡ chính xác, màu). Trình duyệt kết xuất HTML kết quả bằng các phông được cài cục bộ. Nếu tài liệu Word của bạn dùng một phông công ty hoặc thương hiệu tùy chỉnh chỉ cài trên máy làm việc, PDF sẽ hiện trong phông dự phòng của trình duyệt (thường là một phông sans-serif chung chung). Để giữ phông, hãy cài cùng phông trên thiết bị của bạn, hoặc dùng «Lưu dưới dạng PDF» của chính Word, vốn nhúng các phông mà tài liệu của bạn tham chiếu.
Công cụ này có hoạt động ngoại tuyến không?
Có, sau lần truy cập đầu tiên. Các thư viện (mammoth khoảng 600 KB, html2pdf khoảng 350 KB) được tải một lần từ CDN rồi được trình duyệt lưu vào bộ đệm. Các lần truy cập sau vào trình chuyển đổi vẫn hoạt động hoàn toàn ngoại tuyến, miễn là bộ đệm trình duyệt không bị xóa giữa chừng. Bản thân việc chuyển đổi chưa bao giờ cần mạng; chỉ lần tải thư viện ban đầu là cần. Bạn có thể xác minh bằng cách bật chế độ máy bay sau khi mở trang một lần và chuyển một tệp DOCX cục bộ.
Tôi có thể chuyển đổi tệp .doc cũ (Word 97-2003) không?
Không. Công cụ này chỉ nhận .docx (Office Open XML), định dạng được giới thiệu trong Word 2007. Định dạng nhị phân .doc cũ cần một bộ phân tích khác (mammoth chỉ xử lý .docx dựa trên XML). Để chuyển một tệp .doc, hãy mở nó trước trong Word hoặc LibreOffice và Lưu thành .docx, sau đó chuyển ở đây. Việc chuyển .doc sang .docx là thao tác một lần nhấp trong cả hai công cụ và giữ nguyên nội dung.
Các siêu liên kết có nhấp được trong PDF kết quả không?
Các siêu liên kết trong tài liệu nguồn xuất hiện dưới dạng văn bản có kiểu thị giác (xanh, gạch dưới) trong PDF nhưng không tương tác được: vì thân PDF là một hình ảnh bitmap của HTML đã kết xuất, việc nhấp vào văn bản liên kết trong trình đọc PDF sẽ không dẫn đi đâu. Nếu bạn cần các liên kết nhấp được trong PDF đầu ra, hãy dùng «Lưu dưới dạng PDF» của Word (vốn bảo toàn các chú thích liên kết PDF) hoặc «Xuất dưới dạng PDF» của LibreOffice. Cả hai đều tạo PDF mà siêu liên kết vẫn còn hoạt động sau khi chuyển đổi.
Có tương đương máy tính bàn hoặc dòng lệnh không?
Có, nhiều. Cách tiếp cận tiêu chuẩn phía máy chủ và dòng lệnh là chế độ không giao diện của LibreOffice: soffice --headless --convert-to pdf input.docx --outdir output/ chuyển tệp tại chỗ, thân thiện với theo lô, không cần GUI. LibreOffice có thể cài trên Linux, macOS, và Windows; cùng dòng lệnh hoạt động ở mọi nơi. Để có đầu ra giống Word từng pixel theo cách lập trình, Microsoft Word + tự động hóa COM PowerShell trên Windows là tiêu chuẩn vàng (yêu cầu Word đã cài). Các thư viện mammoth.js và html2pdf.js mà công cụ này dùng cũng chạy trong Node.js để chuyển đổi bằng kịch bản, không cần trình duyệt, với cùng hồ sơ độ trung thực. Pandoc kèm động cơ LaTeX là một lựa chọn khác cho dòng công việc xuất bản học thuật.