Công cụ tách PDF miễn phí
Tách PDF thành từng trang riêng lẻ hoặc các khoảng tùy chỉnh ngay lập tức. Trích xuất trang mà không cần tải lên bất kỳ máy chủ nào.
Hỗ trợ tệp PDF lên đến 100 MB
Cách hoạt động
- Chọn hoặc thả một PDF ở trên.
- Chọn trích xuất tất cả các trang hoặc chỉ định khoảng trang tùy chỉnh.
- PDF được tách trong trình duyệt của bạn · không có gì được tải lên bất kỳ máy chủ nào.
- Tải xuống các PDF đã tách tự động dưới dạng tệp ZIP.
Khi nào nên dùng công cụ tách PDF
- Trích xuất trang cụ thể · Loại bỏ các trang không mong muốn khỏi tài liệu.
- Chia sẻ từng trang riêng lẻ · Chỉ gửi những trang liên quan cho người khác.
- Giảm kích thước tệp · Tách một PDF lớn thành các tệp nhỏ hơn, dễ quản lý hơn.
- Sắp xếp tài liệu · Tách một PDF nhiều phần thành các tài liệu riêng biệt.
- Quản lý lưu trữ · Chia nhỏ tài liệu đã quét thành các PDF một trang.
Hiểu về khoảng trang
Tính năng khoảng tùy chỉnh cho phép bạn trích xuất các trang cụ thể. Dùng dấu phẩy để tách nhiều khoảng:
- 1 · Trích xuất trang 1
- 1-3 · Trích xuất trang 1, 2 và 3
- 5, 7-10, 15 · Trích xuất trang 5, trang 7–10 và trang 15
- 2, 4, 6 · Trích xuất các trang cách nhau bắt đầu từ trang 2
Câu hỏi thường gặp
Tôi có thể tách bao nhiêu trang cùng lúc?
Bạn có thể tách PDF lên đến hàng trăm trang. Giới hạn phụ thuộc vào bộ nhớ trình duyệt, nhưng hầu hết các PDF sẽ được xử lý ngay lập tức.
Giới hạn kích thước tệp là bao nhiêu?
PDF lên đến 100 MB có thể được xử lý. Vì việc tách diễn ra trong trình duyệt của bạn, các tệp rất lớn có thể mất một chút thời gian tùy theo thiết bị.
PDF của tôi có được tải lên đâu không?
Không. Toàn bộ việc tách diễn ra hoàn toàn trong trình duyệt của bạn. PDF của bạn không bao giờ rời khỏi thiết bị, đảm bảo quyền riêng tư và bảo mật tuyệt đối.
Tôi có thể trích xuất các trang theo thứ tự khác không?
Có. Ở chế độ khoảng tùy chỉnh, hãy nhập số trang theo bất kỳ thứ tự nào: ví dụ, "5, 3, 1" sẽ tạo một PDF với các trang 5, 3 và 1 theo đúng thứ tự đó.
Biểu mẫu và chú thích PDF sẽ ra sao?
Văn bản và bố cục được giữ nguyên, nhưng các biểu mẫu tương tác có thể không chuyển qua. Chú thích thường được giữ lại trong quá trình tách.
Bốn nghĩa của «chia»
Trong ngữ cảnh PDF, từ «chia» bao trùm ít nhất bốn thao tác khác nhau, và các công cụ dùng cùng một từ ở giao diện trả ra các kết quả khá khác nhau. Bùng (Burst) tách PDF thành N tệp PDF một trang, mỗi tệp một trang, tệp được đặt tên theo số trang. Trích theo khoảng chọn một hay nhiều khoảng trang (ví dụ trang 1-10 và 25-40) và sinh ra một PDF cho mỗi khoảng. Chia theo chương dựa vào dấu trang đọc cây phác thảo của tài liệu, tìm khoảng trang mà từng dấu trang ở cấp cao nhất bao phủ, rồi sinh ra một PDF cho mỗi chương. Lựa chọn tùy ý lấy một tập hợp trang bất kỳ, có thể không theo thứ tự, vào một PDF kết hợp duy nhất.
Công cụ này hiện thực việc trích theo khoảng. Người dùng chỉ định các khoảng trang, công cụ dựng một PDF đầu ra cho mỗi khoảng, và bản gốc không bao giờ bị thay đổi. Có thể thực hiện «bùng» bằng cách khai báo mỗi trang là khoảng một trang của riêng nó, nhưng giao diện được tối ưu cho công việc theo khoảng vì đó là cách dùng thực tế nổi trội. Lựa chọn tùy ý (sắp xếp lại trang bất kỳ bên trong cùng một tệp) là việc của công cụ Trình chỉnh sửa trang PDF miễn phí trực tuyến; việc chia theo dấu trang chưa được hỗ trợ ở đây, và phần văn bản dưới giải thích điều đó một cách thẳng thắn.
Một thoáng lịch sử của việc chia
Việc chia có trước PDF với tư cách một định dạng khoảng mười năm. Các nhà cung cấp giải pháp hình ảnh tài liệu đã trích các khoảng trang từ TIFF nhiều trang và tệp PostScript từ cuối thập niên 1980, với cùng vấn đề cơ bản phải giải: chép nội dung trực quan của những trang nhất định vào một vỏ mới mà không phá vỡ các tham chiếu chéo gắn nội dung trực quan đó vào tài nguyên của nó. PDF, khi đến năm 1993, kế thừa vấn đề ấy và phần lớn cơ chế thuật toán từ công trình trước đó.
Công cụ dòng lệnh chuẩn để xử lý PDF đầu những năm 2000 là pdftk, do Sid Steward viết bằng Java năm 2002. pdftk có các thao tác rõ ràng để chia, gộp, xoay, đóng dấu nước, tất cả được hiện thực bằng việc phân tích PDF thành mô hình đối tượng rồi phát lại đồ thị con liên quan. qpdf, do Jay Berkenbilt khởi xướng năm 2008, trở thành chuẩn mã nguồn mở hiện đại, bày các thao tác đó qua một thư viện C++ được các trình quản lý gói trên toàn thế giới sử dụng. ISO 32000-1 năm 2008 không thêm nguyên thủy nào dành riêng cho việc chia vì các thành phần định dạng hiện có đã đủ; chia thuần túy là một thao tác phía tác giả, tạo ra PDF nhỏ hơn và vẫn hợp lệ bằng cùng các viên gạch.
Việc chia thực sự diễn ra ra sao
Thao tác chia trong công cụ này chạy ba lượt xác định bên trong pdf-lib. Một, bảng tham chiếu chéo của PDF nguồn được đọc và mỗi đối tượng gián tiếp được phân tích thành mô hình trong bộ nhớ. Hai, với mỗi khoảng đầu ra được yêu cầu, công cụ tạo một tài liệu đích trống, gọi copyPages với các chỉ số trang của khoảng, đi qua đồ thị tài nguyên của từng trang được chọn (phông, ảnh, XObject biểu mẫu, từ điển trạng thái đồ họa, mẫu, không gian màu) để chép mọi đối tượng được tham chiếu bắc cầu vào không gian đánh số của đích, rồi thêm các trang đã chép vào cây trang của đích theo thứ tự.
Ba, mỗi đích được tuần tự hóa thành byte và phát đi như một bản tải xuống. Tài liệu đích theo từng khoảng đủ điều kiện được thu gom rác giữa các vòng lặp, và đó là lý do công cụ chạy được trên những PDF có tổng số trang không vừa bộ nhớ nếu tất cả đầu ra cùng tồn tại đồng thời. Thao tác chép trang là cùng một nguyên thủy nuôi công cụ PDF Merge trên trang này, chỉ là đi ngược chiều. Cả hai thao tác đều vô tổn thất: văn bản, hình ảnh, đồ họa vector và các luồng nội dung của các trang được chép sẽ được ghi nguyên xi vào đích, không có chuyện chuyển mã hay raster hóa, và đầu ra hiển thị giống pixel-pixel với các trang tương ứng của nguồn.
Những quy trình thực tế thúc đẩy việc chia
- Tài liệu chứng cứ trong đệ trình pháp lý. Khi một đề nghị được nộp kèm chứng cứ A đến Z, PDF tổng do luật sư ráp phải được tách thành các chứng cứ riêng lẻ để hệ thống quản lý vụ án điện tử của tòa lập chỉ mục. Hướng dẫn CM/ECF của các tòa liên bang Mỹ rõ ràng khuyên chia trước khi tải lên vì hệ thống gắn nhãn từng chứng cứ riêng.
- Đề thi và đáp án. Hội đồng thi phân phối đề bài, đáp án và báo cáo của giám khảo dưới dạng một PDF kết hợp duy nhất để lưu trữ. Trường sau đó chia tệp theo phần để phát cho các khóa khác nhau. Xét về khối lượng tuyệt đối, đây là một trong những kiểu chia có lưu lượng cao nhất, với đỉnh trong kỳ thi mùa hè.
- Sao kê cá nhân tách từ một lô. Ngân hàng, công ty tiện ích và hệ thống tính lương thường tạo một PDF lô hàng tháng chứa sao kê của từng người nhận, rồi tách phía máy chủ. Cùng thao tác đó đôi khi cần ở phía người nhận, ví dụ khi một dịch vụ thuế nhận một sao kê năm gộp và cần các trang theo quý.
- Trích chương và bài báo. Nhân viên đại học phân phát một tập tạp chí hoặc một bản quét sách theo từng chương, thường để giữ trong giới hạn fair-use thân thiện với bản quyền. Việc chia dẫn dắt bởi dấu trang là công cụ lý tưởng ở đây; ai chỉ có công cụ theo khoảng phải tra cứu thủ công các trang bắt đầu chương.
- Hồ sơ công và quy trình tự do thông tin. Cán bộ phụ trách hồ sơ công nhận những tài liệu nội bộ lớn để công bố, rồi chia ở ranh giới các đoạn nhạy cảm để công bố ngay phần không nhạy cảm, trong khi phần khác đi qua quá trình che chữ bằng công cụ riêng.
- Bộ mẫu cho hồ sơ. Nhiếp ảnh gia và nhà thiết kế giữ một hồ sơ tổng và tách một mẫu nhỏ cho từng thư chào hàng cụ thể. Khối lượng thấp hơn các trường hợp khác, nhưng giá trị trên đầu người dùng cao vì nếu không sẽ phải giữ nhiều tệp tổng.
Bẫy thường gặp và cách vòng qua
- Trường biểu mẫu chết. Từ điển biểu mẫu tương tác sống ở cấp tài liệu. Khi các trang chứa tiện ích biểu mẫu được chép, dấu vết trực quan của chúng được mang theo, nhưng định nghĩa trường khiến chúng tương tác thì không. Các đầu ra đã chia hiển thị biểu mẫu đúng nhưng không nhận nhập liệu. Khắc phục: làm phẳng nguồn trước bằng công cụ Làm phẳng PDF trực tuyến miễn phí, rồi chia bản đã phẳng.
- Dấu trang biến mất. Cây phác thảo là cấu trúc ở cấp tài liệu. Việc chia theo khoảng hiện không truyền cây con phác thảo tương ứng vào mỗi đầu ra, do đó mỗi tệp đã chia đều không có phác thảo, bất kể nguồn có hay không. Việc chia có nhận thức về phác thảo cần hoặc một pha viết lại một phần phác thảo, hoặc một chế độ khác hẳn, và tạm hoãn cho hiện tại.
- PDF đã mã hóa không nạp được. PDF có mật khẩu mở không thể được phân tích đến khi mật khẩu được cung cấp. Công cụ này không hỗ trợ đầu vào mã hóa. Quy trình: dùng công cụ Mở khóa PDF miễn phí trực tuyến để gỡ bảo vệ trước, chia bản đã mở khóa, và tuỳ chọn áp lại bảo vệ với Bảo vệ PDF bằng mật khẩu miễn phí trực tuyến trên từng đầu ra.
- Chữ ký không sống sót. Chữ ký số là một băm mật mã trên một dải byte chính xác của tệp đầu vào. Việc chia, theo định nghĩa, sinh ra các PDF mới, và những PDF mới đó không chứa các byte gốc; chữ ký không được bảo toàn trong bất kỳ đầu ra nào. Đó là hành vi đúng đắn về mặt mật mã nhưng đôi khi gây bất ngờ. Hãy giữ nguyên PDF nguồn đã ký, và chia các bản chưa ký nếu bạn cần chia.
- Thẻ trợ năng không được truyền đi. Cây cấu trúc PDF/UA-1 dẫn lối các trình đọc màn hình là một đối tượng cấp tài liệu. Việc chia theo khoảng không mang nó vào đầu ra, do đó nguồn đã gắn thẻ tạo ra các phần chia không gắn thẻ. Với tài liệu sẽ được phát lại cho người đọc khiếm thị, bạn sẽ muốn gắn thẻ lại từng đầu ra qua phù thủy «Make Accessible» trong Adobe Acrobat.
Vì sao các phần đã chia cộng lại nhiều hơn một chút so với đầu vào
Mỗi PDF đầu ra là một PDF đầy đủ và hợp lệ tự thân: nó có catalog riêng, cây trang riêng, siêu dữ liệu phông riêng và bảng tham chiếu chéo riêng. Chia một PDF 10 MB thành 10 đầu ra một trang thường tạo ra các tệp tổng cộng nhỉnh hơn 10 MB, vì mỗi tệp trong số 10 tệp đó đều mang gánh nặng cấu trúc của một tài liệu độc lập. Theo kinh nghiệm, gánh nặng này rơi vào khoảng 1 đến 5 phần trăm của tổng số và tăng theo trị số tuyệt đối với số lượng đầu ra. Với phần lớn trường hợp, điều này không đáng kể; với người dùng chia các tài liệu rất lớn thành nhiều phần nhỏ, nó nhìn thấy được. Ai quan tâm đến kích thước tổng có thể đẩy từng đầu ra qua công cụ Nén PDF trực tuyến miễn phí sau đó để lấy lại phần lớn gánh nặng theo từng tệp.
Chia ngay trong trình duyệt so với chia trên đám mây
Các trình chia PDF trên đám mây chiếm sóng trong kết quả Google (Smallpdf, ILovePDF, ứng dụng web PDF24, Adobe Acrobat Online, hạng miễn phí của Sejda) đều tải PDF nguồn của bạn lên máy chủ của họ, thực hiện chia ở đó và trả các đầu ra như bản tải xuống. Chính sách bảo mật của họ nói rằng tệp được tải lên sẽ bị xóa trong vài giờ, nhưng tệp vẫn đi qua mạng của nhà vận hành, tồn tại trên đĩa của họ trong cửa sổ xử lý, và đi qua mọi log mà nhà vận hành lưu để phát hiện lạm dụng.
Công cụ này không tải lên. PDF của bạn được đọc vào tab trình duyệt qua File API tiêu chuẩn, được pdf-lib phân tích trong cùng tab, và các PDF đầu ra được ghi trở lại đĩa của bạn qua API tải xuống tiêu chuẩn. Lưu lượng mạng duy nhất trong khi chia là một lần tải pdf-lib từ CDN khi trang lần đầu mở. Bạn có thể kiểm chứng: mở công cụ dành cho nhà phát triển ở tab Mạng, chạy chia, và quan sát rằng không có yêu cầu nào mang nội dung tệp của bạn được phát đi. Cái giá của bảo đảm về quyền riêng tư là các tính năng còn thiếu (chia theo dấu trang, truyền cây cấu trúc) mà các công cụ máy chủ lớn hơn cung cấp; sự đánh đổi này là trung thực, và bạn có thể chọn phía nào quan trọng đối với tài liệu cụ thể.
Thêm câu hỏi thường gặp
Tôi có thể chia theo dấu trang hoặc theo chương không?
Hiện tại thì không. Công cụ này làm việc chia theo khoảng: bạn chọn các khoảng trang và nó tạo ra một đầu ra cho mỗi khoảng. Việc chia theo dấu trang (công cụ đọc phác thảo của tài liệu và dùng khoảng trang của mỗi dấu trang cấp cao làm điểm cắt) là tính năng chúng tôi định thêm nhưng chưa ra. Cách xoay xở hiện tại là mở PDF trong một trình đọc, ghi lại các trang bắt đầu chương từ phác thảo thấy được, rồi nhập các khoảng đó thủ công. Với tài liệu phác thảo sâu, một công cụ phía máy chủ như Smallpdf hay Adobe Acrobat Online có thể giúp bạn đỡ phải tra cứu.
Vì sao các tệp đã chia của tôi tổng lại lớn hơn bản gốc một chút?
Mỗi PDF đầu ra mang gánh nặng cấu trúc của một tài liệu độc lập (catalog, cây trang, bảng tham chiếu chéo, siêu dữ liệu phông). Chia một tệp 10 MB thành 10 đầu ra một trang tạo ra tập tệp tổng cộng nhiều hơn đầu vào vài phần trăm. Gánh nặng thường nằm trong khoảng 1 đến 5 phần trăm; nó tăng theo giá trị tuyệt đối với số lượng đầu ra. Nếu kích thước tổng quan trọng, hãy đẩy từng đầu ra qua công cụ PDF Compress để khôi phục phần lớn gánh nặng trên mỗi tệp.
Việc chia có giữ lại dấu trang và trợ năng gắn thẻ không?
Hiện thì chưa. Cây phác thảo và cây cấu trúc PDF/UA-1 đều là đối tượng cấp tài liệu. Thao tác copyPages của pdf-lib mà công cụ này sử dụng chưa truyền chúng vào các đầu ra. Với tài liệu mà việc giữ dấu trang và thẻ quan trọng (xuất bản khu vực công, phân phối trợ năng), Adobe Acrobat Online hiện là công cụ phù hợp. Với phần lớn các phép chia thì việc mất là chấp nhận được; với một số khác thì không, và chúng tôi không muốn giả vờ ngược lại.
Tôi có thể chia các PDF đã mã hóa hay có mật khẩu không?
Không trực tiếp. PDF có mật khẩu mở không thể phân tích đến khi mật khẩu được cung cấp, và pdf-lib không hỗ trợ đầu vào mã hóa. Quy trình là: dùng công cụ PDF Unlock để gỡ mật khẩu trước, chia bản đã mở khóa ở đây, và tuỳ chọn áp lại bảo vệ với công cụ PDF Protect trên từng đầu ra. Các bản đã chia là tài liệu khác với bản gốc đã ký và đã mã hóa, nên hiệu lực chữ ký và quyền truy cập không được giữ qua vòng đi-về này.
Quy ước đặt tên cho các tệp đầu ra là gì?
Tên đầu ra được sinh ra từ tên gốc của PDF nguồn cộng với một hậu tố chỉ khoảng. Một nguồn tên bao-cao.pdf được chia thành các trang 1-5 và 6-30 sẽ tạo ra bao-cao_pages_1-5.pdf và bao-cao_pages_6-30.pdf. Việc trích một trang nhận hậu tố như _page_7.pdf. Việc đặt tên có tính tất định, do đó các quy trình batch có thể dự đoán tên đầu ra từ đặc tả khoảng. Hộp thoại «Lưu thành» của trình duyệt quyết định nơi mỗi tệp đáp xuống; phần lớn trình duyệt hiện đại cho phép cài đặt thư mục tải xuống theo tab và sẽ dùng cho mỗi đầu ra.