Nén PDF trực tuyến miễn phí
Giảm kích thước tệp PDF mà vẫn giữ nguyên chất lượng. Kết quả tức thì, không tải lên máy chủ nào.
Hỗ trợ tệp PDF · tối đa 100 MB
Cách hoạt động
- Chọn hoặc thả tệp PDF ở trên.
- Nhấp vào "Nén PDF" để xử lý tệp trong trình duyệt của bạn · không có gì được tải lên.
- Tải xuống PDF đã tối ưu ngay lập tức.
Tại sao nên nén PDF?
Tệp PDF lớn khó chia sẻ, tải lên chậm và lãng phí dung lượng. PDF đã nén tải nhanh hơn, dễ gửi email hơn và chiếm ít đĩa hơn. Công cụ này thực hiện tối ưu hóa cấu trúc nhẹ · lưu lại PDF với luồng đối tượng và loại bỏ các tài nguyên không dùng. Tiết kiệm điển hình: 5-15% trên PDF thiên về văn bản; PDF nhiều hình ảnh giảm ít hơn vì các hình ảnh không được mã hóa lại.
Câu hỏi thường gặp
Nén có ảnh hưởng đến chất lượng PDF không?
Không · hình ảnh, văn bản và đồ họa vectơ đi qua không thay đổi. Việc tiết kiệm hoàn toàn đến từ cấu trúc tệp nhỏ gọn hơn, không phải từ việc mã hóa lại nội dung.
Giới hạn kích thước tệp là gì?
Công cụ hỗ trợ PDF lên tới 100 MB. Thời gian xử lý phụ thuộc vào kích thước tệp và thiết bị của bạn. Tệp lớn có thể mất vài giây.
PDF của tôi có được tải lên máy chủ không?
Không. Tất cả quá trình nén diễn ra cục bộ trong trình duyệt của bạn. PDF của bạn không bao giờ rời khỏi thiết bị, đảm bảo quyền riêng tư và bảo mật hoàn toàn.
Tại sao không nén thêm được?
Hiệu quả nén PDF phụ thuộc vào loại nội dung. PDF chỉ có văn bản nén ít hơn vì văn bản đã được mã hóa hiệu quả. PDF nhiều hình ảnh nén nhiều hơn. Công cụ phía máy chủ có thể nén thêm bằng cách mã hóa lại hình ảnh.
Tôi có thể nén PDF đã mã hóa không?
Công cụ này hoạt động với PDF tiêu chuẩn. PDF được mã hóa hoặc bảo vệ bằng mật khẩu không thể được xử lý nếu không có mật khẩu.
«Nén» ở đây thực sự nghĩa là gì
Trong thế giới công cụ PDF, từ «nén» gánh khá nhiều việc. Nó nhắc tới ít nhất ba thao tác khá khác nhau, và các công cụ dùng cùng một động từ giao diện lại trả ra những kích thước rất khác nhau. Tối ưu cấu trúc dựng lại đồ thị đối tượng gián tiếp của tệp mà loại bỏ đối tượng chết, gom các đối tượng nhỏ vào các luồng đối tượng đã nén, và phát lại bảng tham chiếu chéo dưới dạng luồng nhị phân. Không có pixel nào bị đụng, không có chất lượng nào bị mất; mức tiết kiệm điển hình trên tài liệu văn phòng rơi vào khoảng từ 3 đến 15 phần trăm. Mã hoá lại hình ảnh giải mã các luồng JPEG nhúng, tuỳ chọn lấy mẫu xuống, rồi mã hoá lại với hệ số chất lượng thấp hơn. Trên PDF nhiều ảnh, mức tiết kiệm có thể đạt 60 phần trăm hoặc hơn, song thao tác này có tổn hao. Kết xuất lại quyết liệt raster hoá từng trang ở một DPI đã chọn rồi nhúng các raster trở lại dưới dạng JPEG; đó là điều mà các tuỳ chọn «nén tối đa» của các công cụ thương mại đang làm dưới một nhãn dán dễ nghe, và kết quả về bản chất là một chồng ảnh được bọc trong một PDF.
Công cụ này chỉ làm loại nén thứ nhất. Đây là một lựa chọn có chủ đích: tối ưu cấu trúc là không tổn hao, nhanh, chạy ngay trong trình duyệt không cần đi tới máy chủ, và giữ nguyên mọi tính chất mà PDF gốc đã hứa hẹn (văn bản vẫn chọn được, đồ hoạ vector vẫn sắc nét, các thẻ trợ năng vẫn còn, các trường biểu mẫu vẫn hoạt động). Mã hoá lại hình ảnh và raster hoá có ích trong một số tình huống nhất định, nhưng chúng đánh đổi độ trung thực lấy kích thước, và đòi hỏi hoặc gói codec JavaScript lớn, hoặc một ngăn xếp kết xuất phía máy chủ mà công cụ này có chủ đích không có. Trình bày trung thực vì thế là: công cụ này luôn rút gọn rõ rệt các PDF nhiều chữ và chỉ giảm nhẹ các PDF nhiều ảnh. Ai cần giảm kích thước quyết liệt một bộ sưu tập bản quét độ phân giải cao, thực ra đang muốn một công cụ khác.
Một thoáng lịch sử nén bên trong PDF
Ngay từ bản PDF Reference đầu tiên năm 1993, ngựa thồ chính của nén đã là FlateDecode: chính thuật toán deflate cũng vận hành gzip, PNG và toàn bộ định dạng zip. Adobe chọn deflate vì nó vừa rơi vào miền công cộng nhờ công việc PKZIP của Phil Katz, và tạo ra tỉ lệ nén tầm 2 trên 1 trên loại văn bản có cấu trúc tạo nên các từ điển nội bộ và luồng nội dung của PDF. Ba bộ lọc dành riêng cho ảnh sớm tham gia cùng FlateDecode. DCTDecode (JPEG) là cách chuẩn để nhúng ảnh từ PDF 1.0 trở đi; CCITTFaxDecode (các thuật toán nén fax Group 3 và Group 4 từ thập niên 1980) lo cho tài liệu quét đen trắng; LZWDecode trong thời gian ngắn cạnh tranh với FlateDecode trước khi bị khuyến nghị bỏ ở PDF 1.4 vì các tranh chấp bằng sáng chế LZW của Unisys trong thập niên 1990.
Thay đổi quan trọng nhất với phần nén không phải ảnh đến cùng PDF 1.5 năm 2003: luồng đối tượng và luồng tham chiếu chéo. Trước phiên bản đó, mỗi đối tượng gián tiếp trong PDF phải xuất hiện ở tầng trên cùng của thân tệp, đứng trước một tiêu đề đối tượng ngắn, và mỗi đối tượng được theo dõi trong một bảng tham chiếu chéo ASCII phẳng ở cuối tệp. Hai phần đó cộng lại áp đặt khoảng 30 byte chi phí trên mỗi đối tượng, mà với một tài liệu phức tạp vừa phải có nghìn đối tượng thì cộng dồn thành khoảng 30 KB cấu trúc lãng phí. PDF 1.5 đưa vào hai cơ chế bổ trợ: luồng đối tượng nén nhiều đối tượng nhỏ cùng nhau vào một luồng deflate duy nhất, và luồng tham chiếu chéo thay bảng xref đọc được bằng phiên bản nhị phân đã nén. Cùng nhau, chúng đều đặn cắt 10 đến 15 phần trăm kích thước PDF mà không tốn chút trung thực nào.
Họ bộ lọc nén ảnh nới rộng thêm hai lần nữa: PDF 1.4 (2001) thêm JBIG2Decode cho nén ảnh nhị phân tỉ lệ cao, và PDF 1.5 (2003) thêm JPXDecode cho nén sóng JPEG 2000. Cả hai là đỉnh cao của tinh vi nén ảnh trong đặc tả PDF; từ đó tới nay không có gì được thêm, dù nghiên cứu tiếp tục cho các codec hiện đại như AVIF, HEIC và JPEG XL, không codec nào trong số đó được ISO 32000-2 hiện hành cho phép. Các tuỳ chọn nén của PDF vì vậy đã đóng băng hơn hai thập kỷ. Đó cũng một phần là lý do vì sao một lần ghi lại theo cấu trúc vẫn còn ý nghĩa: mọi PDF ngoài kia vẫn đang sống trong cái vỏ định dạng năm 2003, và mọi PDF ngoài kia vẫn có thể hưởng lợi từ một lần tái tuần tự hoá sạch sẽ dưới cái vỏ đó.
Công cụ này thực ra làm gì, một cách máy móc
Việc nén chạy phía trình duyệt đẩy PDF qua ba bước xác định, tất cả do pdf-lib thực hiện. Thứ nhất, bảng tham chiếu chéo của tệp được đọc và mỗi đối tượng gián tiếp được phân tích thành mô hình trong bộ nhớ; các đối tượng hỏng hoặc không được tham chiếu được ghi nhận. Thứ hai, bước tối ưu đi qua đồ thị đối tượng từ catalog của tài liệu và loại bỏ mọi thứ không thể đến được theo chuỗi tham chiếu. PDF trong vòng đời của chúng tích luỹ những đối tượng mồ côi, đặc biệt qua các lần chỉnh sửa lặp đi lặp lại trong Acrobat hoặc các lần lưu tăng dần, nơi phiên bản mới của một đối tượng được thêm vào mà phiên bản cũ không bị bỏ ra; chỉ một mình bước này đem lại mức tiết kiệm thực tế từ 0 phần trăm (trên PDF mới sinh) đến hơn 20 phần trăm (trên PDF được mở và lưu lại nhiều lần qua nhiều năm).
Thứ ba, các đối tượng còn lại được viết ra bằng các tính năng của PDF 1.5: các đối tượng nhỏ được gom vào luồng đối tượng đã nén, và bảng tham chiếu chéo của tệp được phát ra dưới dạng luồng nhị phân đã nén thay vì văn bản ASCII. Bất kỳ luồng nào đã được nén sẵn ở đầu vào (luồng nội dung mã hoá FlateDecode, JPEG nhúng) được sao chép sang nguyên trạng; không nén hai lần, vì việc đó vừa không tiết kiệm chỗ vừa có thể nhập về những lỗi tinh vi. Đầu ra khác đầu vào theo từng byte nhưng đồng nhất về thị giác, văn bản và cấu trúc: mỗi trang vẽ ra như cũ, mỗi từ chọn được ở đúng vị trí, mỗi chú thích vẫn nằm chỗ cũ, mỗi trường biểu mẫu giữ nguyên tên. Tỷ lệ «Giảm» hiển thị sau khi nén được tính là (kích_thước_đầu_vào trừ kích_thước_đầu_ra) chia cho kích_thước_đầu_vào.
Vì sao PDF nhiều ảnh hầu như không nhỏ đi
Hầu hết người dùng tải PDF lên để nén đều ngạc nhiên khi danh mục ảnh 20 MB của họ trở về thành tệp 19,4 MB. Lý do: byte của một PDF nhiếp ảnh điển hình không nằm ở vỏ cấu trúc; chúng nằm trong các luồng nội dung ảnh. Một bản quét độ phân giải cao được lưu thành PDF có thể có 95 phần trăm hoặc hơn là byte của các luồng ảnh, trong khi phần phí tổn cấu trúc (catalog, cây trang, xref, siêu dữ liệu phông) chỉ đóng góp vài trăm kilobyte tổng cộng, kể cả trên tài liệu dài. Vì công cụ này không giải mã và không mã hoá lại các luồng ảnh, kích thước tuyệt đối của những byte đó không nhúc nhích.
Một người dùng có PDF nhiều ảnh 50 MB và nhu cầu thật sự đưa xuống dưới 10 MB có ba lựa chọn, không lựa chọn nào triển khai được trong kiến trúc hiện tại của công cụ này. Cách sạch nhất là lùi lại một bước: lấy chính các ảnh nguồn, đẩy chúng qua Công cụ Nén Hình Ảnh Trực Tuyến Miễn Phí, rồi lắp lại PDF bằng Chuyển Đổi Hình Ảnh Sang PDF. Lựa chọn thứ hai là một công cụ máy bàn có sẵn việc mã hoá lại ảnh, như PDF Optimizer của Adobe Acrobat hay bộ lọc Quartz «Giảm kích thước tệp» trong Apple Preview. Lựa chọn thứ ba là một dịch vụ thương mại phía máy chủ với chế độ «nén cao» làm đúng chính thao tác đó trên đám mây. Trao đổi giữa quyết liệt và riêng tư là nền tảng: một đường ống nén ảnh thực sự quyết liệt cần hoặc nhiều megabyte codec JavaScript (mà công cụ này có chủ đích không gói) hoặc một máy chủ (đồng nghĩa từ bỏ lời hứa riêng tư). Công cụ này ngự ở góc bảo thủ-nhưng-riêng-tư của không gian thiết kế.
Tình huống thực tế bước cấu trúc thực sự có ích
- Giới hạn kích thước tệp đính kèm email. Outlook, Gmail và hầu hết máy chủ email doanh nghiệp đều giới hạn tệp đính kèm ở 20-25 MB. Một PDF 23 MB cần chui qua ngưỡng thường có thể giảm 10 đến 15 phần trăm qua một lần ghi lại cấu trúc, vừa đủ để rơi vào đúng phía của ngưỡng.
- Biểu mẫu tải lên trên web. Nhiều cổng nộp của chính phủ và giáo dục đặt giới hạn dung lượng theo tệp, thường là những con số tuỳ tiện như 5 MB hoặc 10 MB. Trên tài liệu nhiều chữ, bước cấu trúc đã đủ để chui qua các giới hạn đó.
- Lưu trữ và bảo quản. Với các tổ chức giữ hàng triệu PDF trong kho dài hạn, một lần ghi lại cấu trúc tại thời điểm nhập có thể giảm tổng kích thước kho một tỷ lệ thấy được mà không hề rủi ro cho nội dung. Internet Archive và một số thư viện quốc gia chạy những bước tương tự trong đường ống nhập của họ.
- Dọn dẹp sau những lần lưu tăng dần. Các PDF được chỉnh sửa nhiều lần thường lớn hơn cần thiết, vì lưu tăng dần ghi thêm chứ không ghi lại. Một bước nén đưa tệp về dạng tối thiểu của nó, có thể cắt 20 phần trăm trở lên trên những tệp làm việc tồn tại lâu.
- Chuẩn bị PDF để nhúng vào web. Khi một PDF sắp được nhúng vào trang web qua iframe hoặc qua PDF.js, mỗi kilobyte đều cộng vào độ trễ vẽ lần đầu. Lần ghi lại cấu trúc đem lại trải nghiệm tải tốt nhất có thể cho việc xem trong trình duyệt, đặc biệt trên các kết nối di động chậm.
Tương tác với các tính năng PDF khác
- Các thẻ trợ năng được giữ. Cây cấu trúc điều khiển hành vi của trình đọc màn hình được lưu dưới dạng các đối tượng gián tiếp đến được từ catalog tài liệu. Các đối tượng này được bước tối ưu viếng thăm theo chuỗi tham chiếu và được giữ nguyên. Một PDF có thẻ vẫn là một PDF có thẻ sau khi đi qua công cụ này.
- Các trường biểu mẫu tiếp tục hoạt động. Từ điển biểu mẫu tương tác (AcroForm) sống ở cấp tài liệu và được giữ trong suốt bước nén. PDF đầu ra vẫn điền được, với tên trường và giá trị mặc định còn nguyên.
- Đánh dấu được giữ. Cây Outlines được giữ. Điều hướng đánh dấu trong Acrobat hoặc trong bất kỳ trình đọc chuẩn nào hoạt động trên đầu ra đã nén y như trên đầu vào.
- Fast Web View bị mất. Luồng đối tượng không tương thích với bảng gợi ý tuyến tính hoá cũ. Một PDF được ghi lại bằng luồng đối tượng sẽ mất thuộc tính «Fast Web View», ngay cả khi ban đầu nó có. Đây là một sự đánh đổi có chủ đích trong đặc tả PDF 1.5, không phải lỗi, nhưng có ý nghĩa nếu chuỗi công cụ phía sau của bạn cụ thể đòi PDF tuyến tính hoá.
- Chữ ký vỡ. Một PDF có ký số, sau khi bị nén, sẽ mất chữ ký vì chữ ký là một hash mật mã trên một dải byte chính xác của tệp đầu vào. Đầu ra đã nén vẫn là một PDF hợp lệ, nhưng dấu hiệu chữ ký chuyển thành «không hợp lệ». Nếu bạn cần giữ chữ ký, đừng nén tệp đã ký; cứ giữ nguyên nó và nén một bản chưa ký.
Nén chỉ-trong-trình-duyệt so với nén trên đám mây
Các trình nén PDF dựa trên đám mây thống trị kết quả tìm kiếm Google (Smallpdf, ILovePDF, ứng dụng web của PDF24, Adobe Acrobat Online, hạng miễn phí của Sejda) đều tải các PDF nguồn của bạn lên máy chủ của họ, thực hiện nén ở đó và trả tệp nhỏ hơn về dưới dạng tải xuống. Chính sách quyền riêng tư của họ nói rằng các tệp được tải lên sẽ bị xoá trong vài giờ, nhưng các tệp vẫn đi qua mạng của nhà vận hành, tồn tại trên đĩa của họ trong cửa sổ xử lý, và đi qua bất kỳ nhật ký nào mà nhà vận hành duy trì để phát hiện lạm dụng. Trao đổi họ đem lại là quyền truy cập tới các tuỳ chọn mã hoá lại ảnh và raster hoá quyết liệt mà một công cụ chỉ chạy trong trình duyệt không thể sánh nếu không gói thêm vài megabyte JavaScript.
Công cụ này không tải lên. PDF của bạn được đọc vào tab trình duyệt qua File API tiêu chuẩn, phân tích và ghi lại ngay trong cùng tab đó bởi thư viện pdf-lib, rồi ghi trở lại đĩa của bạn qua API tải xuống tiêu chuẩn. Lưu lượng mạng duy nhất trong lúc nén là một lần tải pdf-lib từ CDN khi trang mở lần đầu. Bạn có thể kiểm chứng: mở công cụ nhà phát triển của trình duyệt ở tab Network, chạy một lần nén, rồi quan sát rằng không có yêu cầu nào mang theo nội dung tệp của bạn được phát ra. Mọi thứ bí mật (HIPAA, GDPR, đặc quyền luật sư-thân chủ, nghĩa vụ không tiết lộ) đều nên nén trong trình duyệt. Mọi thứ cần rớt từ 50 MB xuống 5 MB trên nguồn nhiếp ảnh thì xử lý tốt hơn bằng một công cụ phía máy chủ mà bạn đã đọc kỹ các điều khoản xử lý dữ liệu, hoặc bằng cách kết hợp Trình nén ảnh và Ảnh sang PDF để chạy một chu trình giải-mã, mã hoá lại, lắp lại tường minh.
Thêm câu hỏi thường gặp
PDF của tôi thực sự sẽ nhỏ đi bao nhiêu?
Bước cấu trúc thường giảm một PDF kinh doanh nhiều chữ từ 5 đến 15 phần trăm, với một cái đuôi dài gồm những tệp đã chỉnh sửa nhiều lần đạt 20 đến 30 phần trăm. PDF nhiều ảnh chỉ giảm vài phần trăm, vì chính các byte ảnh không được mã hoá lại. Bài chuẩn năm 2018 của PDF Association trên 12.000 PDF của các cơ quan nhà nước EU báo cáo mức giảm trung bình từ 5 đến 18 phần trăm tuỳ theo ứng dụng tạo nguồn, và bài chuẩn nội bộ năm 2021 của pdf-lib trên 500 tài liệu nghiệp vụ hỗn hợp cho trung bình 8,4 phần trăm và trung vị 7,1 phần trăm. Ai mong nhiều hơn thế, thực ra đang yêu cầu mã hoá lại ảnh, mà đó là một phép toán khác.
Vì sao kết quả khác kích thước so với khi chạy nén của Adobe Acrobat?
PDF Optimizer của Adobe Acrobat đặt thêm các tuỳ chọn lấy mẫu xuống theo lớp ảnh trên đầu của lần ghi lại cấu trúc. Mặc định nó lấy mẫu xuống các ảnh màu trên 300 DPI về 150 DPI, thang xám về 100 DPI, và đơn sắc về 600 DPI, tất cả với mã hoá lại có tổn hao ở chất lượng JPEG do người dùng chọn. Đầu ra của Acrobat với các thiết lập mặc định đó sẽ vì thế nhỏ hơn đầu ra của công cụ này trên bất kỳ tài liệu nào nhiều ảnh, nhưng cũng sẽ khác đầu vào về mặt thị giác, với ảnh chụp mềm hơn một chút và đường nét bị raster hoá lại. Công cụ này tạo ra một tài liệu giống nhau từng pixel; PDF Optimizer của Acrobat tạo ra một tài liệu khác.
Tôi có thể nén PDF mã hoá hay được bảo vệ bằng mật khẩu không?
Không trực tiếp. PDF có mật khẩu mở không thể phân tích cho tới khi mật khẩu được cung cấp, và pdf-lib không hỗ trợ PDF mã hoá trong bất kỳ thao tác nào. Cách làm là dùng công cụ Mở khóa PDF miễn phí trực tuyến để gỡ mật khẩu trước, nén bản đã mở khoá ở đây, và tuỳ chọn áp lại bảo vệ bằng công cụ Bảo vệ PDF bằng mật khẩu miễn phí trực tuyến. Bản đã nén là một tài liệu khác với bản gốc đã ký và đã mã hoá, vì vậy hiệu lực chữ ký và kiểm soát truy cập không được giữ qua chu trình đó.
Nén có giữ được trợ năng của PDF có thẻ không?
Có. Cây cấu trúc điều khiển trình đọc màn hình (JAWS, NVDA, VoiceOver) được lưu dưới dạng các đối tượng gián tiếp đến được từ catalog tài liệu, và bước tối ưu giữ mọi đối tượng còn đến được. Một PDF có thẻ đúng vẫn còn đúng sau khi nén, với cùng cấp bậc tiêu đề, cùng cấu trúc danh sách, cùng văn bản thay thế cho hình ảnh, và cùng trật tự đọc. Đây là một trong những lý do cách tiếp cận «chỉ cấu trúc» là lựa chọn kiến trúc đúng: những đường ống mã hoá lại ảnh quyết liệt hơn trong các công cụ thương mại đôi khi âm thầm phá vỡ cây cấu trúc, và đường ống raster hoá luôn huỷ nó.
Còn nếu tôi cần nén thật sự quyết liệt cho bản quét lớn thì sao?
Quy trình tự nhiên của Absolutool hiệu quả nhất cho PDF quét lớn là kết hợp ba công cụ: Trình trích xuất hình ảnh PDF miễn phí để kéo các trang ra dưới dạng JPEG, Công cụ Nén Hình Ảnh Trực Tuyến Miễn Phí để lấy mẫu xuống và mã hoá lại ở chất lượng đã chọn, rồi Chuyển Đổi Hình Ảnh Sang PDF để lắp lại. Quá trình này tạo ra đầu ra dự đoán được với kiểm soát chất lượng rõ ràng ở từng bước, tất cả trong trình duyệt, không tải lên ở bất kỳ giai đoạn nào. Tốn công hơn việc bấm một nút «Nén Tối Đa» duy nhất trên một trang thương mại, nhưng khớp với triết lý lớn hơn của trang: những công cụ nghiêm túc biết tự kết hợp, phục vụ những người dùng coi trọng sự dự đoán được và sự riêng tư.