無料PDF画像抽出ツール
PDFファイルから埋め込まれたすべての画像を瞬時に抽出します。寸法付きで画像をプレビューし、個別またはZIPとしてダウンロードできます。
PDF対応 · 最大50MB
使い方
- PDFをアップロード: 画像を抽出するPDFファイルをドロップまたは選択します。
- 自動抽出: ツールがすべてのページをスキャンし、埋め込まれたすべての画像オブジェクトを抽出して、寸法とファイルサイズ情報とともにグリッドに表示します。
- 画像をダウンロード: 任意の画像をクリックして個別にダウンロードするか、「すべてZIPでダウンロード」を使用して抽出したすべての画像を一括ダウンロードします。
なぜPDFから画像を抽出するのか?
PDFから画像を抽出することは、コンテンツの再利用、プレゼンテーションやウェブサイトでのグラフィックの再利用、視覚資料のアーカイブ、PDF全体を共有せずに個別の画像を共有する場合に役立ちます。再処理が行われないため、埋め込まれた画像がそのままエクスポートされ、元の品質が保たれます。
機能
- 完全な抽出: PDFのすべてのページから埋め込まれたすべての画像オブジェクトを抽出します。
- 品質を維持: 元の画像形式(PNG、JPG、TIFFなど)と品質が維持されます。再処理や圧縮は行われません。
- 画像プレビュー: スクロール可能なグリッドで、寸法、形式、ファイルサイズ情報とともに抽出されたすべての画像を表示します。
- 個別または一括ダウンロード: 各画像を個別にダウンロードするか、すべての画像をZIPアーカイブとしてダウンロードします。
- メタデータ表示: 各画像には参照しやすいように幅、高さ、形式、おおよそのファイルサイズが表示されます。
- プライバシー: すべての処理はブラウザ内でローカルに行われます。ファイルがサーバーにアップロードされることはありません。
- 高速: 待機や順番待ちなしでリアルタイム抽出します。
よくある質問
抽出中に画像品質は維持されますか?
はい。ツールは画像を再処理または再圧縮することなく、元の形式で抽出します。品質はPDFに埋め込まれたときと全く同じです。
どの画像形式を抽出できますか?
ツールは埋め込まれた元の形式(PNG、JPG、TIFF、GIF、JPEG2000など一般的な形式)で画像を抽出します。抽出されたファイルは元の形式と品質を保持します。
ダウンロード前に画像の寸法を確認できますか?
はい。プレビューグリッド内の各画像には、幅と高さがピクセル単位で、ファイル形式とおおよそのファイルサイズとともに表示されます。これにより、ダウンロードする画像を識別して選択できます。
画像を個別にダウンロードできますか?
はい。任意の画像のダウンロードボタンをクリックして、すぐにダウンロードできます。または「すべてZIPでダウンロード」を使用して、抽出したすべての画像を1つのアーカイブでダウンロードします。
背景や装飾として使用される画像も抽出しますか?
はい。ツールは、背景、装飾、またはすべてのページにわたって埋め込まれたグラフィックとして使用される画像を含め、PDF内のすべての埋め込み画像オブジェクトを抽出します。
PDFはサーバーに送信されますか?
いいえ。すべての抽出はPDF.jsを使ってブラウザ内でローカルに行われます。PDFがデバイスを離れることは決してなく、プライバシーとセキュリティが保証されます。
ファイルサイズの制限は何ですか?
最大50MBのPDFに対応しています。抽出速度はページ数と埋め込まれた画像の数によって異なります。画像が多い大きなPDFは処理に少し時間がかかる場合があります。
モバイルで画像を抽出できますか?
はい。このツールはデスクトップ、タブレット、モバイルブラウザで動作します。PDFを選択するためにタップするだけで、すべての画像が抽出され、ダウンロード用に表示されます。
「PDF から画像を抽出する」が実際に意味するもの
日常的な表現「PDF から画像を抽出する」はあいまいで、そのあいまいさはツールが実際に何を出力するかに直結します。同じ言葉の背後には、本当に異なる二つの操作があります。一つ目は、埋め込まれた画像オブジェクトを抽出することです。文書をたどり、作成者がファイルに置いたあらゆる画像 XObject(またはインライン画像)を識別し、それぞれを単独の PNG として書き出します。出力は、文書の作成者が実際にファイルに置いたものを、置いた解像度のまま取り出したものです。二つ目は、ページを画像としてレンダリングすることです。各 PDF ページを選択した DPI で 1 枚の画像にラスタライズし、テキスト・ベクター形状・画像をまとめて平らなピクセルとして捕捉します。出力はページの画像であり、ページの中の画像ではありません。
このツールは一つ目の処理を行います。10 ページの文書のページ 2 と 7 に写真が 3 枚埋め込まれている場合、生成されるのは画像ファイル 3 つであり、ページ画像 10 枚ではありません。二つ目の、ページを画像として書き出す処理が欲しい場合は、PDF→画像ツールを使ってください。両者の区別は、ユーザーが最初に来るときに最も多い混乱点です。「PDF→JPG」サービスはたいてい二つ目の処理を行いますし、一つ目を求めて辿り着く人も多くいます。出力数が見分けるサインです。抽出は埋め込み画像の数を返し、ページレンダリングはページ数を返します。
このツールの仕組み
このツールは PDF.js、つまり Mozilla が純粋な JavaScript で書いた PDF レンダラーを実行します。これは Firefox の組み込み PDF プレビューを駆動しているのと同じエンジンです。PDF を選択すると、ブラウザの File API がネットワーク往復なしでバイト列を直接 PDF.js に渡します。PDF.js はクロスリファレンステーブル、トレーラ、ドキュメントカタログを Web Worker 内で解析し、メインスレッドを応答可能なまま保ちます。各ページについてツールはオペレーターリストを要求し、すべての paintImageXObject および paintInlineImageXObject 呼び出しを巡回します。各画像オペレーターに対して、PDF.js のオブジェクトキャッシュ経由で実際の画像 XObject を解決し、フィルタとカラースペースに従ってデコードし、オフスクリーンの canvas にビットマップを描画し、その canvas を PNG として書き出します。
幅、高さ、おおよそのファイルサイズはギャラリービュー用に記録されます。「すべて ZIP でダウンロード」をクリックすると、JSZip がメモリ上で抽出した画像をひとつのアーカイブにまとめ、ブラウザのダウンロードアンカーが保存を開始します。この処理のどの部分もネットワーク要求を行いません。直接確認できます。PDF を選択する前にブラウザの開発者ツールの Network パネルを開き、抽出を実行し、何もマシンから出ていかないことを観察してください。PDF.js エンジンと JSZip ライブラリは初回訪問時に一度だけダウンロードされ、ブラウザにキャッシュされるため、以降の訪問では瞬時に読み込まれ、完全にオフラインで動作します。
PDF が画像をどう保持しているか
PDF ファイルはオブジェクトのツリーです。ページツリーがページオブジェクトを参照し、各ページオブジェクトがコンテンツストリームとリソース辞書を参照します。リソース辞書の XObject エントリは、短い名前(Im1、Im2 など)を画像 XObject ストリームに対応付けます。コンテンツストリームはそれらを Do オペレーターで描画します。q 200 0 0 150 50 300 cm /Im1 Do Q のような並びは、「変換行列を設定し、リソースから Im1 という名前の画像を描画し、変換を復元せよ」を意味します。各画像 XObject は Width と Height(ピクセル寸法)、ColorSpace(各成分の解釈)、BitsPerComponent(1、2、4、8、16 のいずれか)、Filter(バイト列を圧縮するコーデックの連鎖)を持ちます。
抽出器にとって Filter フィールドは最も重要です。バイト列をそのまま書き出せるか、先にデコードしなければならないかを決めるからです。実際には 6 種類のフィルタが登場します。DCTDecode はバイト列を完全な JPEG ファイルとして格納しており、.jpg 拡張子でそのまま書き出せます。カラー PDF の画像のおよそ 60〜70 パーセントがこれです。JPXDecode は JPEG2000 で、消費者向け文書では珍しいものの、高品位印刷パイプラインでは見られます。CCITTFaxDecode は 1 ビット白黒スキャン向けの第 3 群または第 4 群ファックス圧縮で、スキャンされた業務アーカイブでよく見ます。JBIG2Decode はその後継でより効率的、Acrobat の「ファイルサイズの縮小」処理や ABBYY FineReader が使います。FlateDecode は zlib 圧縮の生ピクセルデータで、図版、スクリーンショット、ウェブ志向のオーサリングツール由来の PDF に多く見られます。RunLengthDecode は単純なランレングス符号で、ほとんどは古い、または手作りの PDF にあります。
見逃しやすいインライン画像
PDF 仕様は、小さな画像を名前付き XObject にせず、ページのコンテンツストリームに直接、BI(begin image)、ID(image data)、EI(end image)の各オペレーターの間に埋め込むことを許しています。これは 1990 年代初期の最適化で、ロゴ、アイコン、箇条書きマーカーのような数百バイト規模のごく小さなグラフィックに対して、別オブジェクトを置くオーバーヘッドを避けるためでした。ほかの点では画像 XObject と同じ形式で、同じフィルタ、カラースペース、寸法フィールドがコンパクトな書式で書かれています。
多くの「画像抽出」ツールは、リソース辞書の XObject テーブルだけを巡って終わるため、インライン画像を完全に取り逃します。このツールはページのオペレーターリストを巡回し、paintInlineImageXObject 経由でそれらを拾います。実務上の含意としては、ヘッダーに企業ロゴ(よくインライン)を持つ PDF や、アイコンをインライン画像で扱う旧式オーサリングツール出力の PDF は、素朴な XObject 巡回が示唆するよりも多くの画像を返すということです。他のツールと抽出数を比較しているなら、これは差異の理由のひとつです。後述するその他の理由としては、装飾グラフィック、ステンシルマスク、一部ツールが既定で除外する透かしの取り扱いがあります。
ソフトマスク、ステンシル、透明度
PDF の画像透明度は、画像自体の内部に符号化されることはまれです。代わりに、ページは色の画像を独立した単一チャネルの「ソフトマスク」(XObject 辞書の SMask エントリ)と合成します。リーダー上で見える結果はその合成です。色画像だけを抽出すると不透明になります。視覚的に再利用したい抽出画像には驚きが生まれることがあります。著者が SMask を使った PDF からロゴを抽出すると、透明背景の PNG ではなく不透明の長方形のように見えるかもしれません。現在の動作は色の画像 XObject だけを抽出し、SMask を再合成しないことで、これはコマンドラインの pdfimages -png や、私たちが試したすべてのクラウド抽出サービスの動作と一致します。
関連する概念として ImageMask フラグがあります。ImageMask が true のとき、バイト列はピクセルデータではなく、現在の塗り色をどこに当てるかを定義する 1 ビットのステンシルです。ImageMask を単独で抽出すると、役立つ画像ではなく白黒のシルエットになります。網羅性のためギャラリーには表示しますが、シルエットそのものに関心がない限り有用性は限定的です。寸法でソートし、画面が散らかるなら小さなステンシルは無視してください。ソフトマスクをアルファ付きの 1 枚の PNG として再合成する機能はウィッシュリストにありますが、現状はデスクトップツールに任されています。再合成は背景色を結果に焼き込んでしまうため、ときに破壊的で、それが望む結果とは限らないからです。
カラースペースが出力に与える影響
2026 年のほとんどの PDF は DeviceRGB(sRGB に近い)または DeviceCMYK を使います。PDF.js は両者を透過的にデコードし、canvas に描画する前に CMYK を RGB に変換します。したがって抽出された PNG は、ソースが CMYK だった場合でも常に RGB です。純粋に視覚的な再利用のためならこれは正しい挙動です。CMYK 画像は印刷向けで、変換なしではウェブサイト上で正しく表示されません。印刷再現が目的なら、変換は近似であり、宛先の canvas に印刷プロファイルが付与されていない以上、色再現性は劣ります。印刷を目標とするユーザーは元の PDF を保持し、抽出による往復を避けるべきです。印刷パイプラインが CMYK 画像を直接読み取った方が色忠実度は上がります。
PDF 画像に付随した ICCBased カラープロファイルは PDF.js のデコード時に尊重されるため、抽出された PNG は標準的な表示条件下で意図に近い見え方になります。インデックスドカラースペース(パレット画像、昔の GIF 取り込みでよくある 256 色のケース)は抽出時に脱インデックス化され、パレットベースではなくフルカラー PNG になります。視覚的な再利用には正しい挙動ですが、抽出後の PNG のファイルサイズが PDF 内のインデックスド画像のサイズより大きくなることを意味します。canvas ベースのパイプラインではこの妥協は避けられず、私たちは忠実度を簡潔さより優先しています。可能な限り小さなファイルが欲しいユーザーは、後段で出力を画像圧縮器に通すとよいでしょう。
画像抽出を後押しする現実のワークフロー
- スライドやウェブ向けにグラフィックを再利用する。 デザイナーやマーケターがクライアントの納品物を PDF で受け取り、その中の写真や図版をスライドデッキ、ウェブのリニューアル、ソーシャル投稿に使う必要があるとき。Acrobat の右クリック「画像を保存」は 1 枚ずつしか効きません。40 枚の画像を含む 60 ページの報告書なら、半時間のクリックではなく、ブラウザのタブにドラッグして 1 つの ZIP をダウンロードするだけです。
- 画像カタログを作る。 アーカイブ担当、図書館員、コンテンツ監査担当が PDF のコーパスを抱え、目録化、代替テキスト作成、視覚検索インデックス構築のために画像を取り出す必要があるとき。一括抽出と ZIP ダウンロードが標準的な流れで、ブラウザ側で抽出結果が期待通りだと確認できたあとなら、デスクトップでフォルダを巡回するスクリプトと組み合わせるのは容易です。
- PDF として届く写真ポートフォリオ。 写真家が個別ファイルではなく PDF ギャラリーとしてクライアント納品することがあり、特にポートレート撮影やイベント取材で見られます。クライアントは個別ファイルを欲しがります。抽出は埋め込み解像度のまま返し、これは多くの場合、写真家が印刷版のために選んだ解像度です。
- 問題のある PDF から画像を救出する。 PDF がリーダーで正しく表示されない、または挙動が不安定だが、基底の構造は PDF.js がリソース辞書を解析できる程度には無事という場合。文書全体の挙動が芳しくなくても、抽出は埋め込み画像を救い出します。輸送中に壊れたファイルや署名が一致しないまま保存されたファイルの典型的な救出シナリオです。
- フォレンジックおよび法的レビュー。 ディスカバリーや証拠目録化に備える調査担当者は、ドキュメントセットのあらゆる画像を一覧でき、書き出せる必要があります。「すべての埋め込み画像」という保証は重要で、ひとつでも漏らすのは問題です。オペレーターリストに基づく抽出(XObject テーブル単独ではなく)は、一部パイプラインが静かに取りこぼすインライン画像を捕らえる正しいアプローチです。
- OCR の前処理。 OCR パイプラインの中には、レンダリングされたページよりも抽出された画像のほうがよく働くものがあり、特にソース画像が低解像度のページレイアウトに埋め込まれた高解像度スキャンの場合に顕著です。ネイティブ解像度での抽出は、150 や 300 DPI のページレンダリングでは失われる OCR 可能な細部を保存します。
- 学術および報道の研究。 PDF 内の図表、写真、ダイアグラムは、公正利用での引用、原典との事実確認、文書間の比較のために取り出されます。研究者はまた、ページレンダリングでは見落とされる加工やコンプレッションの痕跡を見つけるため、埋め込み画像のネイティブ解像度を求めることが多いです。
よくある落とし穴とその意味
- 「ツールが思っていたより多くの画像を抽出した。」 PDF には直接目に入らない画像が含まれていることが多くあります。ページをまたいで繰り返される装飾背景、透かし、ヘッダーとフッターの装飾、透明度マスク(これは技術的には画像 XObject)、チェックボックスのような小さなインライングラフィックなどです。完全な抽出はそれらをすべて返します。ギャラリーを寸法で並べ替え、主要な写真だけが欲しいなら小さなサムネイルは無視してください。
- 「ツールが思っていたより少ない画像しか抽出しなかった。」 多くの場合、「足りない」内容は実際には画像ではなく、ベクター画像です。ラスターではなく描画オペレーターとして埋め込まれた Adobe Illustrator のエクスポートなどです。ベクターの中身は画像 XObject ではなく、画像としては抽出できません。ラスターとして取り込むには PDF→画像ツールでページをレンダリングするしかありません。もうひとつの場合は、画像のように見えるテキスト(フォントでレンダリングされたスタイル付きの見出し)で、テキストも画像ではありません。
- 「抽出した画像は不透明だが、文書内のバージョンは透明背景だった。」 その文書は透明度のために独立した SMask を使っており、色の XObject 単独では不透明になります。ソフトマスクを出力に再合成する処理はデスクトップツールに任されており、しばしば破壊的(背景色を画像に焼き込む)です。当面は、背景自動除去をサポートするツールで PNG を編集するか、アルファ形状が必要ならギャラリーからソフトマスクを別途取り出してください。
- 「いくつかの画像が低解像度に見える。」 PDF はファイルサイズを抑えるため埋め込み時に画像をダウンサンプリングすることがよくあります。4000 ピクセル幅の写真を文書に取り込み、Acrobat の「ファイルサイズを縮小」を通したあとに 800 ピクセル幅で格納されている、ということがあり得ます。抽出は格納されている解像度を返すのであり、元の解像度ではありません。元のカメラ解像度のファイルはソースからしか復元できず、PDF からは復元できません。
- 「抽出された二つの画像が、より大きな画像のタイルのように見える。」 一部の PDF ジェネレーターは、ソースがページサイズの閾値を超えると、大きな画像をタイルの格子に切り分けます。タイルは別々の XObject として現れ、全体画像を復元するにはページレイアウトを理解したデスクトップツールで再結合する必要があります。2026 年では既定でタイル化しない PDF ライブラリが主流なため珍しくはなりましたが、古い文書では今もたまに見られます。
- 「100 ページの PDF なのに、抽出された画像はわずかだ。」 多くの PDF は完全にテキストとベクター内容で構成されています。純粋なテキスト文書はページ数によらず埋め込み画像ゼロです。各ページを画像として欲しい場合は、PDF→画像ツールを使ってください。各ページを 1 枚の PNG または JPG にレンダリングし、テキストとベクターを一緒に取り込みます。
- 「抽出後の CMYK 画像の色がおかしい。」 厳密にはおかしくはありません。抽出は画面表示のために CMYK を RGB に変換し、宛先に印刷プロファイルが付与されないので、画面上の表示は近似値です。印刷忠実な再現を求めるなら、PNG 抽出での往復はしないでください。元の PDF を保持し、CMYK を直接読む印刷ワークフローを使ってください。
ブラウザのみの抽出とクラウド抽出
検索結果上位を埋めるクラウド画像抽出サービス(Smallpdf、ILovePDF、PDF24 web、Sejda、CleverPDF)はいずれも PDF をサーバーへアップロードし、サーバー側でデコードし、ZIP をブラウザに返します。プライバシーポリシーは通常 1 時間以内の削除と転送中の TLS を約束しており、大手事業者の商業的評判への圧力は実在します。だからといって、あなたの文書とその中のすべての画像が他者のストレージに短時間でも留まり、他者のソフトウェアを通り抜けたという構造的事実は変わりません。機微な内容(医療記録、金融明細、社内ドラフト、NDA に覆われたものすべて)については、はじめから端末の外へ出さないのが最善の構えです。
このツールはブラウザのタブ内で完結します。PDF.js が PDF をローカルで解析し、画像をローカルでデコードし、ローカルの canvas に書き出し、ローカルでのダウンロードを起動します。初回のページ読み込み以降、ネットワーク要求は一切走りません。どのブラウザでも確認できます。抽出を押す前に開発者ツールの Network パネルを開き、抽出を実行し、ファイルや画像内容を含む要求が一切走らないことを観察してください。ブラウザ内処理の代償は、非常に大きな PDF(数百メガバイト)が高速サーバーよりも遅いことですが、プライバシーの構えは根本的に異なります。このツールの 50 MB 上限はモバイル機器がメモリを使い果たすのを防ぐためで、アーキテクチャがデスクトップブラウザでより大きなファイルを扱えないわけではありません。
その他のよくある質問
「PDF→JPG」や「PDF→画像」とはどう違いますか?
二つの本当に異なる処理です。「PDF→画像」は各ページを 1 枚のラスターにし、テキスト、ベクター、画像を平らなピクセルとしてとらえます。出力はページの画像です。「画像を抽出」は作成者が埋め込んだ個々の画像オブジェクトを取り出します。出力はページの中の画像です。10 ページの報告書のページ 2 と 7 に写真が 3 枚ある場合、「PDF→画像」は 10 枚(各ページに 1 枚)を返し、「画像を抽出」は 3 枚(その写真たち)を返します。一つ目の処理は PDF→画像ツールを使ってください。
元が JPEG なのに、抽出された画像がなぜ PNG なのですか?
現在のパイプラインは画像を HTML canvas に通してデコード済みビットマップを得て、そのビットマップを透明度を保つために PNG として再符号化します。PNG は可逆です。JPEG の量子化損失はビットマップに焼き込まれた状態で正確に保たれ、二度目の量子化は走りません。出力 PNG は元の JPEG バイト列より大きくなりますが、品質は下がりません。生の JPEG バイトを直接書き出す将来のモード(pdfimages -j 相当)はウィッシュリストにありますが、得られるのはファイルサイズの削減であって品質向上ではありません。
ツールは背景に使われた画像やインライン画像も含めて、すべて見つけますか?
はい。ツールはページのオペレーターリストを巡回し、名前付きの画像 XObject(描画オペレーター Do)と、コンテンツストリーム内に BI、ID、EI オペレーターで直接埋め込まれたインライン画像の両方を解決します。多くの抽出ツールは XObject テーブルしか巡らないためインライン画像を取り逃しますが、このツールは取り逃しません。ステンシルマスク(ImageMask が true)も報告しますが、画像というよりシルエットであり、限定的な場面でだけ役立ちます。
どれくらいの大きさの PDF まで処理できますか?
現行実装では 50 MB までです。この上限はモバイル機器のブラウザのメモリ圧迫によって決まります。大きな PDF は解析済み文書とデコードされた画像を同時にメモリ上に保持するため、機器のヒープを超えるとタブが OS に回収されます。デスクトップブラウザは通常もっと大きく扱えますが、安全のために控えめに設定しています。非常に大きな文書には poppler-utils の pdfimages -all がデスクトップで適切です。
抽出すると画像の著作権は変わりますか?
いいえ。PDF に埋め込まれた画像は、文書の著者、撮影者、ライセンス保有者の権利をそのまま保ちます。合法に閲覧できる PDF から画像を取り出すことは、その画像のスクリーンショットを撮るのと機械的には等価で、抽出ファイルの利用は元の PDF と同じ著作権規則に従います。個人参照目的は通常争点になりませんが、再配布や商用利用はソースのライセンス条項によります。
デスクトップやコマンドラインの同等品はありますか?
はい、強力なものが二つあります。poppler-utils の pdfimages が最も近い相当物です。pdfimages -all input.pdf prefix- は可能な限り元の符号化のままで各画像を抽出します。macOS なら brew install poppler、Debian や Ubuntu なら apt install poppler-utils、Windows ならプロジェクトサイトのバイナリを入手します。もうひとつは MuPDF の mutool extract で、画像とフォントを一緒に取り出します。どちらもローカルで、無料で、よくメンテナンスされています。