Trình trích xuất hình ảnh PDF miễn phí

Trích xuất tất cả hình ảnh được nhúng từ file PDF ngay lập tức. Xem trước hình ảnh với kích thước, tải xuống từng cái hoặc dưới dạng ZIP.

100% phía máy khách · tệp của bạn không bao giờ rời khỏi thiết bị
Thả file PDF vào đây hoặc nhấp để duyệt

Hỗ trợ PDF · lên đến 50 MB

Đang xử lý: 0%

Cách hoạt động

  1. Tải lên PDF: Thả hoặc chọn một file PDF để trích xuất hình ảnh.
  2. Trích xuất tự động: Công cụ quét tất cả các trang và trích xuất mọi đối tượng hình ảnh được nhúng, hiển thị chúng trong một lưới với thông tin kích thước và kích cỡ file.
  3. Tải xuống hình ảnh: Nhấp vào bất kỳ hình ảnh nào để tải từng cái, hoặc sử dụng 'Tải tất cả dưới dạng ZIP' để tải hàng loạt tất cả hình ảnh đã trích xuất.

Tại sao trích xuất hình ảnh từ PDF?

Trích xuất hình ảnh từ PDF hữu ích để tái sử dụng nội dung, tái sử dụng đồ họa trong bài thuyết trình hoặc trang web, lưu trữ các tài liệu trực quan, hoặc chia sẻ từng hình ảnh mà không cần chia sẻ toàn bộ PDF. Việc trích xuất hình ảnh giữ nguyên chất lượng gốc vì không có quá trình xử lý lại: chỉ các hình ảnh được nhúng được xuất nguyên bản.

Tính năng

Câu hỏi thường gặp

Chất lượng hình ảnh có được bảo toàn trong quá trình trích xuất không?

Có. Công cụ trích xuất hình ảnh ở định dạng gốc mà không xử lý lại hoặc nén lại. Chất lượng chính xác như khi được nhúng trong PDF.

Các định dạng hình ảnh nào có thể được trích xuất?

Công cụ trích xuất hình ảnh ở định dạng nhúng gốc: PNG, JPG, TIFF, GIF, JPEG2000 và các định dạng phổ biến khác. Các file đã trích xuất giữ định dạng và chất lượng gốc.

Tôi có thể xem kích thước hình ảnh trước khi tải xuống không?

Có. Mỗi hình ảnh trong lưới xem trước hiển thị chiều rộng và chiều cao tính bằng pixel, cùng với định dạng file và kích cỡ file gần đúng. Điều này giúp bạn xác định và chọn hình ảnh cần tải xuống.

Tôi có thể tải xuống hình ảnh riêng lẻ không?

Có. Nhấp nút tải xuống trên bất kỳ hình ảnh nào để tải ngay. Hoặc sử dụng 'Tải tất cả dưới dạng ZIP' để tải xuống tất cả hình ảnh đã trích xuất trong một kho lưu trữ duy nhất.

Nó có trích xuất hình ảnh được sử dụng làm nền hoặc trang trí không?

Có. Công cụ trích xuất tất cả đối tượng hình ảnh được nhúng trong PDF, bao gồm hình ảnh được sử dụng làm nền, trang trí hoặc đồ họa nhúng trên tất cả các trang.

PDF của tôi có được gửi đến máy chủ không?

Không. Tất cả việc trích xuất diễn ra cục bộ trong trình duyệt của bạn với PDF.js. PDF của bạn không bao giờ rời khỏi thiết bị, đảm bảo riêng tư và bảo mật.

Giới hạn kích cỡ file là gì?

Hỗ trợ PDF lên đến 50 MB. Tốc độ trích xuất phụ thuộc vào số trang và số hình ảnh được nhúng. PDF lớn với nhiều hình ảnh có thể mất vài giây để xử lý.

Tôi có thể trích xuất hình ảnh trên di động không?

Có. Công cụ này hoạt động trên trình duyệt máy tính để bàn, máy tính bảng và di động. Chỉ cần chạm để chọn PDF và tất cả hình ảnh sẽ được trích xuất và hiển thị để tải xuống.

"Trích xuất hình ảnh từ PDF" thực sự nghĩa là gì

Cụm từ thường gặp "trích xuất hình ảnh từ PDF" mơ hồ, và sự mơ hồ đó quyết định công cụ thực sự sẽ trả lại điều gì. Hai thao tác thật sự khác nhau ẩn sau cùng những từ ngữ ấy. Thao tác thứ nhất là trích xuất các đối tượng hình ảnh đã nhúng: duyệt qua tài liệu, nhận diện từng Image XObject (hoặc hình ảnh inline) mà tác giả đặt vào tệp, rồi ghi mỗi cái ra thành một PNG độc lập. Đầu ra chính là những gì tác giả tài liệu đã đưa vào tệp, ở đúng độ phân giải họ đã dùng. Thao tác thứ hai là kết xuất các trang thành ảnh: rasterize từng trang PDF thành một hình duy nhất ở DPI bạn chọn, gộp văn bản, hình vector và hình ảnh thành các pixel phẳng. Đầu ra là ảnh của trang, không phải ảnh nằm bên trong trang.

Công cụ này làm theo cách thứ nhất. Với một tài liệu 10 trang trong đó các trang 2 và 7 có ba bức ảnh nhúng, nó sản sinh ba tệp ảnh, không phải mười ảnh trang. Nếu bạn muốn cách thứ hai, kết xuất trang thành ảnh, hãy dùng công cụ PDF sang Ảnh. Phân biệt hai thao tác là điểm gây nhầm lẫn phổ biến nhất khi người dùng mới đến: các dịch vụ "PDF to JPG" thường làm theo cách thứ hai, và nhiều người dùng đến đó dù muốn cách thứ nhất. Số tệp đầu ra là dấu hiệu: trích xuất trả về số lượng ảnh nhúng; kết xuất trang trả về số lượng trang.

Cách công cụ này hoạt động

Công cụ chạy PDF.js, bộ kết xuất PDF viết thuần bằng JavaScript của Mozilla, chính là động cơ chạy chế độ xem trước PDF tích hợp của Firefox. Khi bạn chọn một PDF, File API của trình duyệt giao byte trực tiếp cho PDF.js mà không cần một vòng đi-về mạng nào. PDF.js phân tích bảng tham chiếu chéo, trailer và mục lục tài liệu bên trong một Web Worker để luồng chính vẫn phản hồi. Với mỗi trang, công cụ yêu cầu danh sách toán tử và duyệt qua mọi lời gọi paintImageXObjectpaintInlineImageXObject. Với mỗi toán tử ảnh, nó phân giải Image XObject thật thông qua bộ nhớ đệm đối tượng của PDF.js, giải mã theo bộ lọc và không gian màu của nó, vẽ bitmap lên một canvas ngoài màn hình, rồi xuất canvas đó thành PNG.

Chiều rộng, chiều cao và kích thước tệp xấp xỉ được ghi nhận cho chế độ xem thư viện. Khi bạn nhấp "Tải tất cả dưới dạng ZIP", JSZip gom mọi ảnh đã trích thành một kho lưu trữ duy nhất trong bộ nhớ, và neo tải xuống của trình duyệt kích hoạt lưu. Không phần nào của quá trình này gửi yêu cầu mạng. Bạn có thể tự kiểm chứng: mở công cụ dành cho nhà phát triển của trình duyệt ở bảng Network trước khi chọn PDF, chạy trích xuất và quan sát rằng không có gì rời khỏi máy bạn. Động cơ PDF.js và thư viện JSZip được tải về một lần khi bạn vào lần đầu rồi được trình duyệt lưu vào bộ đệm, nên các lần tiếp theo tải gần như tức thì và làm việc hoàn toàn ngoại tuyến.

PDF chứa hình ảnh như thế nào

Một tệp PDF là cây các đối tượng. Cây trang tham chiếu đến đối tượng trang; mỗi đối tượng trang tham chiếu một luồng nội dung và một từ điển tài nguyên. Mục XObject của từ điển tài nguyên ánh xạ các tên ngắn (như Im1, Im2) đến các luồng Image XObject. Luồng nội dung vẽ chúng bằng toán tử Do: một chuỗi như q 200 0 0 150 50 300 cm /Im1 Do Q có nghĩa "đặt phép biến đổi, vẽ ảnh tên Im1 từ tài nguyên, khôi phục phép biến đổi". Mỗi Image XObject mang theo WidthHeight (kích thước pixel), ColorSpace (cách diễn giải từng thành phần), BitsPerComponent (1, 2, 4, 8 hoặc 16) và Filter (chuỗi codec nén byte).

Với một trình trích xuất, trường Filter quan trọng nhất, vì nó quyết định byte có thể ghi thẳng ra hay phải giải mã trước. Trong thực tế xuất hiện sáu bộ lọc. DCTDecode lưu byte như một tệp JPEG hoàn chỉnh, sẵn sàng ghi với phần mở rộng .jpg; đây là khoảng 60 đến 70 phần trăm hình ảnh trong PDF màu. JPXDecode là JPEG2000, hiếm gặp ở tài liệu phổ thông nhưng có trong các pipeline in cao cấp. CCITTFaxDecode là nén fax Nhóm 3 hoặc Nhóm 4 cho bản quét đen trắng một bit, phổ biến trong các kho lưu trữ doanh nghiệp đã quét. JBIG2Decode là kế thừa hiệu quả hơn, được tính năng "Reduce File Size" của Acrobat và ABBYY FineReader sử dụng. FlateDecode là dữ liệu pixel thô nén bằng zlib, phổ biến trong đồ họa, ảnh chụp màn hình và PDF từ các công cụ soạn thảo nghiêng về web. RunLengthDecode là RLE đơn giản chủ yếu thấy ở PDF cũ hoặc dựng tay.

Hình ảnh inline, trường hợp dễ bị bỏ sót

Đặc tả PDF cho phép các ảnh nhỏ được nhúng trực tiếp vào luồng nội dung của một trang, giữa các toán tử BI (begin image), ID (image data) và EI (end image), mà không trở thành XObject có tên. Đây là một tối ưu hóa đầu thập niên 1990 cho các đồ họa rất nhỏ như logo, biểu tượng và dấu đầu dòng, nhằm tránh chi phí tạo một đối tượng riêng cho ảnh vài trăm byte. Mọi mặt khác, định dạng giống Image XObject: cùng các trường bộ lọc, không gian màu và kích thước, được viết ở dạng cô đọng.

Nhiều công cụ "trích xuất hình ảnh" bỏ sót hoàn toàn ảnh inline vì chúng chỉ duyệt bảng XObject của từ điển tài nguyên rồi dừng. Công cụ này duyệt danh sách toán tử trang và bắt chúng qua paintInlineImageXObject. Hệ quả thực tiễn: PDF có logo công ty trong tiêu đề (thường là inline) và PDF từ các công cụ soạn thảo cũ dùng ảnh inline cho biểu tượng sẽ trả về nhiều ảnh hơn so với cách duyệt XObject đơn giản. Nếu bạn đang so sánh số lượng trích xuất với một công cụ khác, đây là một lý do gây khác biệt. Các lý do khác, được nói ở dưới, bao gồm việc đưa cả đồ họa trang trí, mặt nạ stencil và hình mờ vào, trong khi một số công cụ mặc định lọc bỏ chúng.

Mặt nạ mềm, stencil và độ trong suốt

Độ trong suốt của hình ảnh trong PDF hiếm khi được mã hóa bên trong chính ảnh đó. Thay vào đó, trang ghép ảnh màu với một "mặt nạ mềm" đơn kênh riêng (mục SMask trong từ điển XObject). Kết quả nhìn thấy trong trình đọc là phép ghép đó; ảnh màu được trích riêng ra thì đặc. Với những ảnh trích để tái sử dụng trực quan, điều này có thể gây bất ngờ: một logo trích từ PDF mà tác giả dùng SMask có thể hiện ra như một hình chữ nhật đặc thay vì PNG nền trong suốt. Hành vi hiện tại là trích chỉ Image XObject màu mà không tái ghép SMask, khớp với hành vi của pdfimages -png trên dòng lệnh và của mọi dịch vụ trích xuất đám mây mà chúng tôi đã thử.

Khái niệm liên quan là cờ ImageMask. Khi ImageMask là true, các byte không phải dữ liệu pixel; chúng là stencil một bit xác định nơi áp dụng màu tô hiện hành. Trích một ImageMask riêng lẻ tạo ra một bóng đen trắng thay vì một ảnh có thể sử dụng. Để đảm bảo đầy đủ, công cụ báo cáo chúng trong thư viện, nhưng độ hữu ích nhỏ trừ khi bạn quan tâm cụ thể đến bóng. Hãy sắp xếp theo kích thước và bỏ qua stencil nhỏ nếu chúng làm rối khung nhìn. Việc tái ghép mặt nạ mềm thành PNG có kênh alpha là một tính năng trong danh sách mong muốn nhưng hiện được dành cho công cụ trên máy tính, vì đôi khi nó phá hủy: tái ghép sẽ "nướng" màu nền vào kết quả, điều có thể là hoặc không phải là cái bạn muốn.

Không gian màu và ảnh hưởng đến đầu ra

Hầu hết PDF trong năm 2026 dùng DeviceRGB (giống sRGB) hoặc DeviceCMYK. PDF.js giải mã cả hai một cách minh bạch, chuyển CMYK sang RGB trước khi vẽ lên canvas. PNG trích xuất do đó luôn là RGB, kể cả khi nguồn là CMYK. Cho việc tái sử dụng thuần trực quan, điều này đúng: ảnh CMYK dành cho in và sẽ không hiển thị đúng trên trang web nếu không chuyển đổi. Cho tái tạo in, sự chuyển đổi là gần đúng vì canvas đích không gắn cấu hình in. Ai nhắm đến in nên giữ PDF gốc và không vòng qua trích xuất; độ trung thực màu sẽ tốt hơn khi pipeline in đọc ảnh CMYK trực tiếp.

Các cấu hình màu ICCBased gắn vào ảnh PDF được PDF.js tôn trọng khi giải mã, vì vậy PNG trích xuất tiệm cận diện mạo dự kiến trong điều kiện xem chuẩn. Các không gian màu chỉ mục (ảnh bảng màu, trường hợp 256 màu điển hình từ thời nhập GIF) bị bỏ chỉ mục khi trích xuất, tạo PNG đầy đủ màu thay vì dựa trên bảng màu. Đây là hành vi đúng cho việc tái sử dụng trực quan, nhưng có nghĩa là kích thước tệp PNG trích xuất có thể lớn hơn kích thước ảnh được chỉ mục gốc bên trong PDF. Sự đánh đổi này không tránh được trong pipeline dựa trên canvas, và chúng tôi ưu tiên tính trung thực hơn sự gọn gàng; ai cần tệp nhỏ nhất có thể cho đầu ra đi qua Trình Nén Ảnh sau đó.

Các quy trình thực tế thúc đẩy việc trích xuất hình ảnh

Cạm bẫy thường gặp và ý nghĩa của chúng

Trích xuất chỉ trong trình duyệt so với đám mây

Các dịch vụ trích ảnh đám mây chiếm đầu kết quả tìm kiếm (Smallpdf, ILovePDF, PDF24 web, Sejda, CleverPDF) đều tải PDF lên máy chủ của họ, giải mã ở phía máy chủ, rồi trả ZIP về trình duyệt của bạn. Chính sách bảo mật của họ thường cam kết xóa trong vòng một giờ và dùng TLS trong khi truyền, và áp lực uy tín thương mại đối với các nhà vận hành lớn là có thật. Nhưng không điều gì trong đó thay đổi sự thật cấu trúc đơn giản: tài liệu của bạn và mọi ảnh trong nó đã từng tồn tại ngắn ngủi trên kho lưu trữ của ai đó khác và đi qua phần mềm của họ. Với tài liệu nhạy cảm (hồ sơ y tế, sao kê tài chính, bản nháp nội bộ, mọi thứ thuộc thỏa thuận bảo mật), tư thế tốt hơn là không bao giờ để tệp rời thiết bị ngay từ đầu.

Công cụ này chạy hoàn toàn trong tab trình duyệt. PDF.js phân tích PDF tại chỗ, giải mã ảnh tại chỗ, ghi chúng vào một canvas cục bộ và kích hoạt tải xuống cục bộ. Không có yêu cầu mạng nào được kích hoạt sau lần tải trang ban đầu. Chứng cứ có sẵn trong bất kỳ trình duyệt nào: mở bảng Network của công cụ nhà phát triển trước khi nhấp trích xuất, chạy trích xuất và quan sát rằng không có yêu cầu nào với tệp hoặc nội dung ảnh của bạn được kích hoạt. Cái giá của xử lý trong trình duyệt là PDF rất lớn (hàng trăm megabyte) chậm hơn so với máy chủ nhanh, nhưng tư thế bảo mật khác hẳn về bản chất. Giới hạn 50 MB trong công cụ này được đặt để bảo vệ thiết bị di động khỏi cạn heap, không phải vì kiến trúc không thể xử lý tệp lớn hơn trên trình duyệt máy tính.

Thêm các câu hỏi thường gặp

Điều này khác gì với "PDF sang JPG" hay "PDF sang ảnh"?

Hai thao tác thật sự khác. "PDF sang ảnh" rasterize từng trang thành một ảnh, nắm văn bản, vector và ảnh thành các pixel phẳng; đầu ra là ảnh của trang. "Trích ảnh" lấy ra các đối tượng ảnh riêng lẻ mà tác giả đã nhúng vào tệp; đầu ra là ảnh nằm trong trang. Với báo cáo 10 trang có ba bức ảnh ở các trang 2 và 7, "PDF sang ảnh" trả mười tệp (một mỗi trang); "Trích ảnh" trả ba (ba bức ảnh đó). Dùng công cụ PDF sang Ảnh cho kiểu thứ nhất.

Vì sao ảnh trích là PNG trong khi nguyên bản là JPEG?

Pipeline hiện tại đẩy mọi ảnh qua một canvas HTML, sinh ra một bitmap đã giải mã, rồi mã hóa lại bitmap đó thành PNG để giữ độ trong suốt nếu có. PNG không mất mát: tổn thất lượng tử của JPEG đã "chín" trong bitmap và được giữ nguyên hệt, không có vòng lượng tử thứ hai. Tệp PNG đầu ra lớn hơn byte JPEG gốc, nhưng chất lượng không xuống. Một chế độ trong tương lai ghi byte JPEG thô trực tiếp (tương đương pdfimages -j) đang nằm trong danh sách mong muốn; lợi ích ở đó là tệp nhỏ hơn, không phải chất lượng cao hơn.

Công cụ có tìm thấy mọi ảnh, kể cả ảnh dùng làm nền hay inline?

Có. Công cụ duyệt danh sách toán tử trang và phân giải cả Image XObject có tên (toán tử vẽ Do) lẫn ảnh inline nhúng trực tiếp trong luồng nội dung giữa các toán tử BI, IDEI. Nhiều công cụ trích xuất bỏ sót ảnh inline vì chỉ duyệt bảng XObject; công cụ này thì không. Mặt nạ stencil (ImageMask bằng true) cũng được báo cáo, dù chúng là bóng hơn là ảnh và chỉ hữu ích trong trường hợp hẹp.

Tôi có thể xử lý PDF lớn cỡ nào?

Tới 50 MB trong cài đặt hiện tại. Giới hạn do áp lực bộ nhớ của trình duyệt trên thiết bị di động: PDF lớn giữ tài liệu đã phân tích và các ảnh đã giải mã cùng lúc trong bộ nhớ, vượt heap khả dụng của thiết bị sẽ khiến hệ điều hành thu hồi tab. Trình duyệt trên máy tính thường xử lý nhiều hơn đáng kể; trần này được đặt thận trọng vì an toàn. Với tài liệu rất lớn, pdfimages -all trên máy tính từ poppler-utils là công cụ phù hợp.

Trích xuất có thay đổi bản quyền của ảnh không?

Không. Ảnh nhúng trong PDF vẫn giữ quyền thuộc về tác giả tài liệu, nhiếp ảnh gia hoặc người giữ giấy phép. Trích ảnh từ PDF mà bạn có quyền truy cập hợp pháp tương đương về mặt cơ học với việc chụp màn hình ảnh đó; những gì bạn làm với tệp trích xuất chịu cùng quy tắc bản quyền như nguồn. Dùng cho tham chiếu cá nhân thường không gây tranh cãi; phân phối lại hay sử dụng thương mại tùy thuộc vào các điều khoản giấy phép của nguồn.

Có công cụ tương đương trên máy tính hay dòng lệnh không?

Có, hai cái mạnh. pdfimages từ poppler-utils là tương đương gần nhất: pdfimages -all input.pdf prefix- trích từng ảnh theo mã hóa gốc bất cứ khi nào có thể. Cài bằng brew install poppler trên macOS, apt install poppler-utils trên Debian hoặc Ubuntu, hoặc tải bản nhị phân Windows từ trang dự án. Cái còn lại là mutool extract của MuPDF, trích ảnh và phông cùng lúc. Cả hai đều chạy cục bộ, miễn phí và được bảo trì tốt.

Công cụ liên quan