Trình trích xuất hình ảnh PDF miễn phí
Trích xuất tất cả hình ảnh được nhúng từ file PDF ngay lập tức. Xem trước hình ảnh với kích thước, tải xuống từng cái hoặc dưới dạng ZIP.
Hỗ trợ PDF · lên đến 50 MB
Cách hoạt động
- Tải lên PDF: Thả hoặc chọn một file PDF để trích xuất hình ảnh.
- Trích xuất tự động: Công cụ quét tất cả các trang và trích xuất mọi đối tượng hình ảnh được nhúng, hiển thị chúng trong một lưới với thông tin kích thước và kích cỡ file.
- Tải xuống hình ảnh: Nhấp vào bất kỳ hình ảnh nào để tải từng cái, hoặc sử dụng 'Tải tất cả dưới dạng ZIP' để tải hàng loạt tất cả hình ảnh đã trích xuất.
Tại sao trích xuất hình ảnh từ PDF?
Trích xuất hình ảnh từ PDF hữu ích để tái sử dụng nội dung, tái sử dụng đồ họa trong bài thuyết trình hoặc trang web, lưu trữ các tài liệu trực quan, hoặc chia sẻ từng hình ảnh mà không cần chia sẻ toàn bộ PDF. Việc trích xuất hình ảnh giữ nguyên chất lượng gốc vì không có quá trình xử lý lại: chỉ các hình ảnh được nhúng được xuất nguyên bản.
Tính năng
- Trích xuất đầy đủ: Trích xuất tất cả đối tượng hình ảnh được nhúng từ mọi trang trong PDF.
- Chất lượng được bảo toàn: Định dạng hình ảnh gốc (PNG, JPG, TIFF, v.v.) và chất lượng được duy trì, không có xử lý lại hoặc nén.
- Xem trước hình ảnh: Xem tất cả hình ảnh đã trích xuất trong một lưới có thể cuộn với thông tin kích thước, định dạng và kích cỡ file.
- Tải xuống từng file hoặc hàng loạt: Tải xuống mỗi hình ảnh riêng lẻ hoặc tải tất cả hình ảnh dưới dạng một kho lưu trữ ZIP.
- Hiển thị siêu dữ liệu: Mỗi hình ảnh hiển thị chiều rộng, chiều cao, định dạng và kích cỡ file gần đúng để tham khảo dễ dàng.
- Quyền riêng tư: Tất cả xử lý diễn ra cục bộ trong trình duyệt của bạn. File không bao giờ được tải lên bất kỳ máy chủ nào.
- Nhanh chóng: Trích xuất thời gian thực mà không phải chờ đợi hoặc xếp hàng.
Câu hỏi thường gặp
Chất lượng hình ảnh có được bảo toàn trong quá trình trích xuất không?
Có. Công cụ trích xuất hình ảnh ở định dạng gốc mà không xử lý lại hoặc nén lại. Chất lượng chính xác như khi được nhúng trong PDF.
Các định dạng hình ảnh nào có thể được trích xuất?
Công cụ trích xuất hình ảnh ở định dạng nhúng gốc: PNG, JPG, TIFF, GIF, JPEG2000 và các định dạng phổ biến khác. Các file đã trích xuất giữ định dạng và chất lượng gốc.
Tôi có thể xem kích thước hình ảnh trước khi tải xuống không?
Có. Mỗi hình ảnh trong lưới xem trước hiển thị chiều rộng và chiều cao tính bằng pixel, cùng với định dạng file và kích cỡ file gần đúng. Điều này giúp bạn xác định và chọn hình ảnh cần tải xuống.
Tôi có thể tải xuống hình ảnh riêng lẻ không?
Có. Nhấp nút tải xuống trên bất kỳ hình ảnh nào để tải ngay. Hoặc sử dụng 'Tải tất cả dưới dạng ZIP' để tải xuống tất cả hình ảnh đã trích xuất trong một kho lưu trữ duy nhất.
Nó có trích xuất hình ảnh được sử dụng làm nền hoặc trang trí không?
Có. Công cụ trích xuất tất cả đối tượng hình ảnh được nhúng trong PDF, bao gồm hình ảnh được sử dụng làm nền, trang trí hoặc đồ họa nhúng trên tất cả các trang.
PDF của tôi có được gửi đến máy chủ không?
Không. Tất cả việc trích xuất diễn ra cục bộ trong trình duyệt của bạn với PDF.js. PDF của bạn không bao giờ rời khỏi thiết bị, đảm bảo riêng tư và bảo mật.
Giới hạn kích cỡ file là gì?
Hỗ trợ PDF lên đến 50 MB. Tốc độ trích xuất phụ thuộc vào số trang và số hình ảnh được nhúng. PDF lớn với nhiều hình ảnh có thể mất vài giây để xử lý.
Tôi có thể trích xuất hình ảnh trên di động không?
Có. Công cụ này hoạt động trên trình duyệt máy tính để bàn, máy tính bảng và di động. Chỉ cần chạm để chọn PDF và tất cả hình ảnh sẽ được trích xuất và hiển thị để tải xuống.
"Trích xuất hình ảnh từ PDF" thực sự nghĩa là gì
Cụm từ thường gặp "trích xuất hình ảnh từ PDF" mơ hồ, và sự mơ hồ đó quyết định công cụ thực sự sẽ trả lại điều gì. Hai thao tác thật sự khác nhau ẩn sau cùng những từ ngữ ấy. Thao tác thứ nhất là trích xuất các đối tượng hình ảnh đã nhúng: duyệt qua tài liệu, nhận diện từng Image XObject (hoặc hình ảnh inline) mà tác giả đặt vào tệp, rồi ghi mỗi cái ra thành một PNG độc lập. Đầu ra chính là những gì tác giả tài liệu đã đưa vào tệp, ở đúng độ phân giải họ đã dùng. Thao tác thứ hai là kết xuất các trang thành ảnh: rasterize từng trang PDF thành một hình duy nhất ở DPI bạn chọn, gộp văn bản, hình vector và hình ảnh thành các pixel phẳng. Đầu ra là ảnh của trang, không phải ảnh nằm bên trong trang.
Công cụ này làm theo cách thứ nhất. Với một tài liệu 10 trang trong đó các trang 2 và 7 có ba bức ảnh nhúng, nó sản sinh ba tệp ảnh, không phải mười ảnh trang. Nếu bạn muốn cách thứ hai, kết xuất trang thành ảnh, hãy dùng công cụ PDF sang Ảnh. Phân biệt hai thao tác là điểm gây nhầm lẫn phổ biến nhất khi người dùng mới đến: các dịch vụ "PDF to JPG" thường làm theo cách thứ hai, và nhiều người dùng đến đó dù muốn cách thứ nhất. Số tệp đầu ra là dấu hiệu: trích xuất trả về số lượng ảnh nhúng; kết xuất trang trả về số lượng trang.
Cách công cụ này hoạt động
Công cụ chạy PDF.js, bộ kết xuất PDF viết thuần bằng JavaScript của Mozilla, chính là động cơ chạy chế độ xem trước PDF tích hợp của Firefox. Khi bạn chọn một PDF, File API của trình duyệt giao byte trực tiếp cho PDF.js mà không cần một vòng đi-về mạng nào. PDF.js phân tích bảng tham chiếu chéo, trailer và mục lục tài liệu bên trong một Web Worker để luồng chính vẫn phản hồi. Với mỗi trang, công cụ yêu cầu danh sách toán tử và duyệt qua mọi lời gọi paintImageXObject và paintInlineImageXObject. Với mỗi toán tử ảnh, nó phân giải Image XObject thật thông qua bộ nhớ đệm đối tượng của PDF.js, giải mã theo bộ lọc và không gian màu của nó, vẽ bitmap lên một canvas ngoài màn hình, rồi xuất canvas đó thành PNG.
Chiều rộng, chiều cao và kích thước tệp xấp xỉ được ghi nhận cho chế độ xem thư viện. Khi bạn nhấp "Tải tất cả dưới dạng ZIP", JSZip gom mọi ảnh đã trích thành một kho lưu trữ duy nhất trong bộ nhớ, và neo tải xuống của trình duyệt kích hoạt lưu. Không phần nào của quá trình này gửi yêu cầu mạng. Bạn có thể tự kiểm chứng: mở công cụ dành cho nhà phát triển của trình duyệt ở bảng Network trước khi chọn PDF, chạy trích xuất và quan sát rằng không có gì rời khỏi máy bạn. Động cơ PDF.js và thư viện JSZip được tải về một lần khi bạn vào lần đầu rồi được trình duyệt lưu vào bộ đệm, nên các lần tiếp theo tải gần như tức thì và làm việc hoàn toàn ngoại tuyến.
PDF chứa hình ảnh như thế nào
Một tệp PDF là cây các đối tượng. Cây trang tham chiếu đến đối tượng trang; mỗi đối tượng trang tham chiếu một luồng nội dung và một từ điển tài nguyên. Mục XObject của từ điển tài nguyên ánh xạ các tên ngắn (như Im1, Im2) đến các luồng Image XObject. Luồng nội dung vẽ chúng bằng toán tử Do: một chuỗi như q 200 0 0 150 50 300 cm /Im1 Do Q có nghĩa "đặt phép biến đổi, vẽ ảnh tên Im1 từ tài nguyên, khôi phục phép biến đổi". Mỗi Image XObject mang theo Width và Height (kích thước pixel), ColorSpace (cách diễn giải từng thành phần), BitsPerComponent (1, 2, 4, 8 hoặc 16) và Filter (chuỗi codec nén byte).
Với một trình trích xuất, trường Filter quan trọng nhất, vì nó quyết định byte có thể ghi thẳng ra hay phải giải mã trước. Trong thực tế xuất hiện sáu bộ lọc. DCTDecode lưu byte như một tệp JPEG hoàn chỉnh, sẵn sàng ghi với phần mở rộng .jpg; đây là khoảng 60 đến 70 phần trăm hình ảnh trong PDF màu. JPXDecode là JPEG2000, hiếm gặp ở tài liệu phổ thông nhưng có trong các pipeline in cao cấp. CCITTFaxDecode là nén fax Nhóm 3 hoặc Nhóm 4 cho bản quét đen trắng một bit, phổ biến trong các kho lưu trữ doanh nghiệp đã quét. JBIG2Decode là kế thừa hiệu quả hơn, được tính năng "Reduce File Size" của Acrobat và ABBYY FineReader sử dụng. FlateDecode là dữ liệu pixel thô nén bằng zlib, phổ biến trong đồ họa, ảnh chụp màn hình và PDF từ các công cụ soạn thảo nghiêng về web. RunLengthDecode là RLE đơn giản chủ yếu thấy ở PDF cũ hoặc dựng tay.
Hình ảnh inline, trường hợp dễ bị bỏ sót
Đặc tả PDF cho phép các ảnh nhỏ được nhúng trực tiếp vào luồng nội dung của một trang, giữa các toán tử BI (begin image), ID (image data) và EI (end image), mà không trở thành XObject có tên. Đây là một tối ưu hóa đầu thập niên 1990 cho các đồ họa rất nhỏ như logo, biểu tượng và dấu đầu dòng, nhằm tránh chi phí tạo một đối tượng riêng cho ảnh vài trăm byte. Mọi mặt khác, định dạng giống Image XObject: cùng các trường bộ lọc, không gian màu và kích thước, được viết ở dạng cô đọng.
Nhiều công cụ "trích xuất hình ảnh" bỏ sót hoàn toàn ảnh inline vì chúng chỉ duyệt bảng XObject của từ điển tài nguyên rồi dừng. Công cụ này duyệt danh sách toán tử trang và bắt chúng qua paintInlineImageXObject. Hệ quả thực tiễn: PDF có logo công ty trong tiêu đề (thường là inline) và PDF từ các công cụ soạn thảo cũ dùng ảnh inline cho biểu tượng sẽ trả về nhiều ảnh hơn so với cách duyệt XObject đơn giản. Nếu bạn đang so sánh số lượng trích xuất với một công cụ khác, đây là một lý do gây khác biệt. Các lý do khác, được nói ở dưới, bao gồm việc đưa cả đồ họa trang trí, mặt nạ stencil và hình mờ vào, trong khi một số công cụ mặc định lọc bỏ chúng.
Mặt nạ mềm, stencil và độ trong suốt
Độ trong suốt của hình ảnh trong PDF hiếm khi được mã hóa bên trong chính ảnh đó. Thay vào đó, trang ghép ảnh màu với một "mặt nạ mềm" đơn kênh riêng (mục SMask trong từ điển XObject). Kết quả nhìn thấy trong trình đọc là phép ghép đó; ảnh màu được trích riêng ra thì đặc. Với những ảnh trích để tái sử dụng trực quan, điều này có thể gây bất ngờ: một logo trích từ PDF mà tác giả dùng SMask có thể hiện ra như một hình chữ nhật đặc thay vì PNG nền trong suốt. Hành vi hiện tại là trích chỉ Image XObject màu mà không tái ghép SMask, khớp với hành vi của pdfimages -png trên dòng lệnh và của mọi dịch vụ trích xuất đám mây mà chúng tôi đã thử.
Khái niệm liên quan là cờ ImageMask. Khi ImageMask là true, các byte không phải dữ liệu pixel; chúng là stencil một bit xác định nơi áp dụng màu tô hiện hành. Trích một ImageMask riêng lẻ tạo ra một bóng đen trắng thay vì một ảnh có thể sử dụng. Để đảm bảo đầy đủ, công cụ báo cáo chúng trong thư viện, nhưng độ hữu ích nhỏ trừ khi bạn quan tâm cụ thể đến bóng. Hãy sắp xếp theo kích thước và bỏ qua stencil nhỏ nếu chúng làm rối khung nhìn. Việc tái ghép mặt nạ mềm thành PNG có kênh alpha là một tính năng trong danh sách mong muốn nhưng hiện được dành cho công cụ trên máy tính, vì đôi khi nó phá hủy: tái ghép sẽ "nướng" màu nền vào kết quả, điều có thể là hoặc không phải là cái bạn muốn.
Không gian màu và ảnh hưởng đến đầu ra
Hầu hết PDF trong năm 2026 dùng DeviceRGB (giống sRGB) hoặc DeviceCMYK. PDF.js giải mã cả hai một cách minh bạch, chuyển CMYK sang RGB trước khi vẽ lên canvas. PNG trích xuất do đó luôn là RGB, kể cả khi nguồn là CMYK. Cho việc tái sử dụng thuần trực quan, điều này đúng: ảnh CMYK dành cho in và sẽ không hiển thị đúng trên trang web nếu không chuyển đổi. Cho tái tạo in, sự chuyển đổi là gần đúng vì canvas đích không gắn cấu hình in. Ai nhắm đến in nên giữ PDF gốc và không vòng qua trích xuất; độ trung thực màu sẽ tốt hơn khi pipeline in đọc ảnh CMYK trực tiếp.
Các cấu hình màu ICCBased gắn vào ảnh PDF được PDF.js tôn trọng khi giải mã, vì vậy PNG trích xuất tiệm cận diện mạo dự kiến trong điều kiện xem chuẩn. Các không gian màu chỉ mục (ảnh bảng màu, trường hợp 256 màu điển hình từ thời nhập GIF) bị bỏ chỉ mục khi trích xuất, tạo PNG đầy đủ màu thay vì dựa trên bảng màu. Đây là hành vi đúng cho việc tái sử dụng trực quan, nhưng có nghĩa là kích thước tệp PNG trích xuất có thể lớn hơn kích thước ảnh được chỉ mục gốc bên trong PDF. Sự đánh đổi này không tránh được trong pipeline dựa trên canvas, và chúng tôi ưu tiên tính trung thực hơn sự gọn gàng; ai cần tệp nhỏ nhất có thể cho đầu ra đi qua Trình Nén Ảnh sau đó.
Các quy trình thực tế thúc đẩy việc trích xuất hình ảnh
- Tái sử dụng đồ họa cho slide hoặc web. Một nhà thiết kế hay người làm tiếp thị nhận sản phẩm bàn giao của khách hàng dưới dạng PDF và cần các ảnh và sơ đồ trong đó để làm bộ slide, dựng lại website hoặc đăng mạng xã hội. Nhấp chuột phải "lưu ảnh" của Acrobat hoạt động với từng ảnh một; với một báo cáo 60 trang có 40 ảnh, đó là nửa tiếng nhấp chuột so với một thao tác kéo-thả vào tab trình duyệt và một lần tải ZIP.
- Lập danh mục ảnh. Một nhân viên lưu trữ, thủ thư hay người kiểm toán nội dung có một kho PDF và cần lấy ảnh ra để lập danh mục, viết văn bản thay thế, hay xây dựng chỉ mục tìm kiếm bằng hình. Trích xuất hàng loạt rồi tải ZIP là quy trình tiêu chuẩn; kết hợp với một kịch bản duyệt thư mục trên máy tính sẽ dễ dàng khi phía trình duyệt đã chứng minh trích xuất trả về đúng những gì mong đợi.
- Bộ ảnh nhiếp ảnh được giao dưới dạng PDF. Đôi khi các nhiếp ảnh gia giao sản phẩm cho khách bằng một thư viện PDF thay vì các tệp riêng lẻ, đặc biệt với buổi chụp chân dung và đưa tin sự kiện. Khách hàng muốn các tệp riêng. Trích xuất trả chúng về ở độ phân giải đã nhúng, vốn thường là độ phân giải nhiếp ảnh gia chọn cho bản in.
- Cứu ảnh từ một PDF có vấn đề. Một PDF không hiển thị đúng trong trình đọc hoặc cư xử thất thường, nhưng cấu trúc bên dưới đủ nguyên vẹn để PDF.js phân tích các từ điển tài nguyên. Trích xuất cứu được các ảnh nhúng kể cả khi tài liệu hành xử kém ở mặt khác. Đây là kịch bản cứu chữa thường gặp với những tệp hỏng khi chuyển hoặc lưu với chữ ký không khớp.
- Soát xét pháp lý và pháp y. Người soát xét chuẩn bị khai mở chứng cứ hay lập danh mục chứng cứ cần mọi ảnh trong tập tài liệu được liệt kê và xuất được. Sự đảm bảo "mọi ảnh nhúng" có ý nghĩa: bỏ sót một là vấn đề. Trích xuất dựa trên danh sách toán tử (chứ không chỉ dựa trên bảng XObject) là cách tiếp cận đúng, vì nó bắt được các ảnh inline mà một số pipeline âm thầm bỏ rơi.
- Tiền xử lý cho OCR. Một số pipeline OCR làm việc tốt hơn trên ảnh trích xuất hơn là trên trang đã kết xuất, đặc biệt khi ảnh nguồn là bản quét độ phân giải cao nhúng trong bố cục trang độ phân giải thấp hơn. Trích xuất ở độ phân giải gốc giữ lại các chi tiết có thể OCR mà việc kết xuất trang ở 150 hay 300 DPI sẽ làm mất.
- Nghiên cứu học thuật và báo chí. Biểu đồ, ảnh và sơ đồ trong PDF được lấy ra để trích dẫn theo nguyên tắc sử dụng hợp lý, kiểm tra dữ kiện đối chiếu với nguồn gốc, hoặc so sánh giữa các tài liệu. Các nhà nghiên cứu cũng thường muốn độ phân giải gốc của ảnh nhúng để phát hiện chỉnh sửa hay vết nén mà kết xuất trang sẽ che lấp.
Cạm bẫy thường gặp và ý nghĩa của chúng
- "Công cụ trích nhiều ảnh hơn tôi tưởng." PDF thường chứa những ảnh bạn không thấy trực tiếp: nền trang trí lặp qua nhiều trang, hình mờ, hoa văn đầu trang và chân trang, mặt nạ trong suốt (về mặt kỹ thuật là Image XObject) và các đồ họa inline tí hon như hộp đánh dấu. Một lần trích xuất đầy đủ trả về tất cả. Hãy sắp xếp thư viện theo kích thước và bỏ qua các thumbnail nhỏ nếu bạn chỉ cần các ảnh chính.
- "Công cụ trích ít ảnh hơn tôi tưởng." Thường gặp nhất, phần nội dung "thiếu" không phải ảnh mà là minh họa vector: một xuất từ Adobe Illustrator được nhúng dưới dạng các toán tử vẽ thay vì raster. Nội dung vector không phải Image XObject và không trích được dưới dạng ảnh. Cách duy nhất để bắt nó dưới dạng raster là kết xuất trang bằng công cụ PDF sang Ảnh. Trường hợp khác là văn bản trông như ảnh (một tiêu đề tạo kiểu dùng font); văn bản cũng không phải ảnh.
- "Ảnh trích đặc, dù bản trong tài liệu có nền trong suốt." Tài liệu dùng SMask riêng cho độ trong suốt; XObject màu một mình thì đặc. Việc tái ghép mặt nạ mềm vào đầu ra được dành cho công cụ trên máy tính vì đôi khi nó phá hủy (nướng màu nền vào ảnh). Tạm thời, hãy sửa PNG trong một công cụ hỗ trợ tự động xóa nền, hoặc lấy riêng mặt nạ mềm từ thư viện nếu bạn cần hình dạng alpha.
- "Một số ảnh trông thấp độ phân giải." PDF thường hạ mẫu (downsample) hình ảnh khi nhúng để giữ kích thước tệp gọn gàng. Một bức ảnh 4000 pixel chiều ngang nhập vào tài liệu rồi đi qua "Reduce File Size" của Acrobat có thể được lưu ở chiều ngang 800 pixel. Trích xuất trả về độ phân giải đã lưu, không phải độ phân giải gốc. Tệp ở độ phân giải máy ảnh gốc chỉ có thể lấy lại từ nguồn, không phải từ PDF.
- "Hai ảnh trích trông như các mảng của một ảnh lớn hơn." Một số bộ tạo PDF cắt ảnh lớn thành lưới các mảng, đặc biệt khi nguồn vượt ngưỡng kích thước trang. Các mảng hiện ra dưới dạng các XObject riêng; muốn dựng lại ảnh toàn vẹn cần ráp chúng trong một công cụ trên máy tính có thông tin bố cục trang. Đến 2026 hiện tượng này hiếm vì các thư viện PDF hiện đại không còn cắt mảng theo mặc định, nhưng các tài liệu cũ thi thoảng vẫn cho thấy.
- "PDF có 100 trang nhưng chỉ trích được vài ảnh." Nhiều PDF hoàn toàn là văn bản và nội dung vector. Một tài liệu thuần văn bản có 0 ảnh nhúng, bất kể số trang. Nếu bạn muốn mỗi trang thành một ảnh, hãy dùng công cụ PDF sang Ảnh, nó kết xuất mỗi trang thành một PNG hoặc JPG, nắm cả văn bản và vector cùng nhau.
- "Ảnh CMYK sai màu sau khi trích." Nghiêm túc mà nói thì không; trích xuất chuyển CMYK sang RGB để hiển thị trên màn hình, và hiển thị trên màn hình là gần đúng vì đích không có cấu hình in. Để tái tạo trung thực cho in, đừng vòng qua trích xuất PNG. Hãy giữ PDF gốc và dùng quy trình in đọc CMYK trực tiếp.
Trích xuất chỉ trong trình duyệt so với đám mây
Các dịch vụ trích ảnh đám mây chiếm đầu kết quả tìm kiếm (Smallpdf, ILovePDF, PDF24 web, Sejda, CleverPDF) đều tải PDF lên máy chủ của họ, giải mã ở phía máy chủ, rồi trả ZIP về trình duyệt của bạn. Chính sách bảo mật của họ thường cam kết xóa trong vòng một giờ và dùng TLS trong khi truyền, và áp lực uy tín thương mại đối với các nhà vận hành lớn là có thật. Nhưng không điều gì trong đó thay đổi sự thật cấu trúc đơn giản: tài liệu của bạn và mọi ảnh trong nó đã từng tồn tại ngắn ngủi trên kho lưu trữ của ai đó khác và đi qua phần mềm của họ. Với tài liệu nhạy cảm (hồ sơ y tế, sao kê tài chính, bản nháp nội bộ, mọi thứ thuộc thỏa thuận bảo mật), tư thế tốt hơn là không bao giờ để tệp rời thiết bị ngay từ đầu.
Công cụ này chạy hoàn toàn trong tab trình duyệt. PDF.js phân tích PDF tại chỗ, giải mã ảnh tại chỗ, ghi chúng vào một canvas cục bộ và kích hoạt tải xuống cục bộ. Không có yêu cầu mạng nào được kích hoạt sau lần tải trang ban đầu. Chứng cứ có sẵn trong bất kỳ trình duyệt nào: mở bảng Network của công cụ nhà phát triển trước khi nhấp trích xuất, chạy trích xuất và quan sát rằng không có yêu cầu nào với tệp hoặc nội dung ảnh của bạn được kích hoạt. Cái giá của xử lý trong trình duyệt là PDF rất lớn (hàng trăm megabyte) chậm hơn so với máy chủ nhanh, nhưng tư thế bảo mật khác hẳn về bản chất. Giới hạn 50 MB trong công cụ này được đặt để bảo vệ thiết bị di động khỏi cạn heap, không phải vì kiến trúc không thể xử lý tệp lớn hơn trên trình duyệt máy tính.
Thêm các câu hỏi thường gặp
Điều này khác gì với "PDF sang JPG" hay "PDF sang ảnh"?
Hai thao tác thật sự khác. "PDF sang ảnh" rasterize từng trang thành một ảnh, nắm văn bản, vector và ảnh thành các pixel phẳng; đầu ra là ảnh của trang. "Trích ảnh" lấy ra các đối tượng ảnh riêng lẻ mà tác giả đã nhúng vào tệp; đầu ra là ảnh nằm trong trang. Với báo cáo 10 trang có ba bức ảnh ở các trang 2 và 7, "PDF sang ảnh" trả mười tệp (một mỗi trang); "Trích ảnh" trả ba (ba bức ảnh đó). Dùng công cụ PDF sang Ảnh cho kiểu thứ nhất.
Vì sao ảnh trích là PNG trong khi nguyên bản là JPEG?
Pipeline hiện tại đẩy mọi ảnh qua một canvas HTML, sinh ra một bitmap đã giải mã, rồi mã hóa lại bitmap đó thành PNG để giữ độ trong suốt nếu có. PNG không mất mát: tổn thất lượng tử của JPEG đã "chín" trong bitmap và được giữ nguyên hệt, không có vòng lượng tử thứ hai. Tệp PNG đầu ra lớn hơn byte JPEG gốc, nhưng chất lượng không xuống. Một chế độ trong tương lai ghi byte JPEG thô trực tiếp (tương đương pdfimages -j) đang nằm trong danh sách mong muốn; lợi ích ở đó là tệp nhỏ hơn, không phải chất lượng cao hơn.
Công cụ có tìm thấy mọi ảnh, kể cả ảnh dùng làm nền hay inline?
Có. Công cụ duyệt danh sách toán tử trang và phân giải cả Image XObject có tên (toán tử vẽ Do) lẫn ảnh inline nhúng trực tiếp trong luồng nội dung giữa các toán tử BI, ID và EI. Nhiều công cụ trích xuất bỏ sót ảnh inline vì chỉ duyệt bảng XObject; công cụ này thì không. Mặt nạ stencil (ImageMask bằng true) cũng được báo cáo, dù chúng là bóng hơn là ảnh và chỉ hữu ích trong trường hợp hẹp.
Tôi có thể xử lý PDF lớn cỡ nào?
Tới 50 MB trong cài đặt hiện tại. Giới hạn do áp lực bộ nhớ của trình duyệt trên thiết bị di động: PDF lớn giữ tài liệu đã phân tích và các ảnh đã giải mã cùng lúc trong bộ nhớ, vượt heap khả dụng của thiết bị sẽ khiến hệ điều hành thu hồi tab. Trình duyệt trên máy tính thường xử lý nhiều hơn đáng kể; trần này được đặt thận trọng vì an toàn. Với tài liệu rất lớn, pdfimages -all trên máy tính từ poppler-utils là công cụ phù hợp.
Trích xuất có thay đổi bản quyền của ảnh không?
Không. Ảnh nhúng trong PDF vẫn giữ quyền thuộc về tác giả tài liệu, nhiếp ảnh gia hoặc người giữ giấy phép. Trích ảnh từ PDF mà bạn có quyền truy cập hợp pháp tương đương về mặt cơ học với việc chụp màn hình ảnh đó; những gì bạn làm với tệp trích xuất chịu cùng quy tắc bản quyền như nguồn. Dùng cho tham chiếu cá nhân thường không gây tranh cãi; phân phối lại hay sử dụng thương mại tùy thuộc vào các điều khoản giấy phép của nguồn.
Có công cụ tương đương trên máy tính hay dòng lệnh không?
Có, hai cái mạnh. pdfimages từ poppler-utils là tương đương gần nhất: pdfimages -all input.pdf prefix- trích từng ảnh theo mã hóa gốc bất cứ khi nào có thể. Cài bằng brew install poppler trên macOS, apt install poppler-utils trên Debian hoặc Ubuntu, hoặc tải bản nhị phân Windows từ trang dự án. Cái còn lại là mutool extract của MuPDF, trích ảnh và phông cùng lúc. Cả hai đều chạy cục bộ, miễn phí và được bảo trì tốt.