Kostenloser PDF-Bildextraktor
Extrahieren Sie sofort alle eingebetteten Bilder aus PDF-Dateien. Zeigen Sie Bilder mit Abmessungen in der Vorschau an und laden Sie sie einzeln oder als ZIP herunter.
Unterstützt PDF · bis zu 50 MB
So funktioniert's
- PDF hochladenWählen Sie Ihre PDF-Datei oder legen Sie sie im Browser ab. Kein Server-Upload.
- Automatische ExtraktionDas Tool analysiert das PDF und extrahiert alle eingebetteten Bilder mit ihren Abmessungen.
- Bilder herunterladenLaden Sie die Bilder einzeln herunter oder fassen Sie sie in einem ZIP-Archiv zusammen.
Warum Bilder aus PDFs extrahieren?
Das Extrahieren von Bildern aus PDFs ist nützlich, um Inhalte wiederzuverwenden, Grafiken für neue Dokumente zu recyceln oder wichtige visuelle Ressourcen zu archivieren. Die Bilder werden in ihrer Originalqualität extrahiert, sodass sie verlustfrei wiederverwendet werden können.
Funktionen
- Vollständige ExtraktionExtrahiert alle eingebetteten Bilder aus dem PDF, einschließlich Fotos, Logos und Illustrationen.
- Qualität erhaltenDie Bilder werden in ihrer ursprünglichen Auflösung und Qualität ohne erneute Komprimierung extrahiert.
- BildvorschauSehen Sie sich jedes Bild mit seinen Abmessungen in der Vorschau an, bevor Sie es herunterladen.
- Einzel- oder MassendownloadLaden Sie die Bilder einzeln herunter oder alle zusammen in einem ZIP-Archiv.
- MetadatenanzeigeZeigen Sie Abmessungen, Format und Größe jedes extrahierten Bildes an.
- DatenschutzDie Extraktion erfolgt vollständig in Ihrem Browser. Es werden keine Dateien auf einen Server hochgeladen.
- SchnellExtrahieren Sie alle Bilder in Sekunden dank lokaler JavaScript-Verarbeitung.
Häufig gestellte Fragen
Bleibt die Bildqualität erhalten?
Ja. Die Bilder werden in derselben Qualität und Auflösung extrahiert, in der sie im PDF eingebettet sind, ohne erneute Komprimierung.
Welche Bildformate werden extrahiert?
Das Tool extrahiert Bilder in ihrem nativen, im PDF gespeicherten Format, in der Regel JPEG oder PNG, je nach Ausgangsdokument.
Kann ich die Abmessungen vor dem Herunterladen sehen?
Ja. Jedes Bild wird mit seinen exakten Abmessungen in Pixel in der Vorschau angezeigt, damit Sie die benötigten auswählen können.
Kann ich Bilder einzeln herunterladen?
Ja. Klicken Sie auf das Bild, das Sie herunterladen möchten, oder verwenden Sie die ZIP-Schaltfläche, um alle auf einmal zu erhalten.
Sind Hintergründe und Dekorationen enthalten?
Alle im PDF tatsächlich eingebetteten Bilder werden extrahiert, einschließlich Hintergründe, Dekorationen und Logos.
Werden meine PDFs auf einen Server hochgeladen?
Nein. Die gesamte Extraktion findet lokal in Ihrem Browser über PDF.js statt. Ihre PDFs verlassen niemals Ihr Gerät, was vollständige Privatsphäre und Sicherheit gewährleistet.
Was ist die maximale Dateigröße?
Das Limit liegt bei 50 MB pro PDF, was die meisten Dokumente abdeckt. Bei größeren Dateien versuchen Sie, das PDF zuerst zu teilen.
Funktioniert es auf Mobilgeräten?
Ja. Das Tool funktioniert in modernen mobilen Browsern, obwohl größere Dateien langsamer verarbeitet werden können.
Was "Bilder aus PDF extrahieren" wirklich bedeutet
Der alltägliche Ausdruck "Bilder aus einem PDF extrahieren" ist mehrdeutig, und diese Mehrdeutigkeit ist entscheidend dafür, was das Werkzeug tatsächlich liefert. Hinter denselben Worten verbergen sich zwei wirklich verschiedene Vorgänge. Der erste besteht darin, eingebettete Bildobjekte zu extrahieren: das Dokument durchgehen, jedes vom Autor in die Datei gesetzte Bild-XObject (oder Inline-Bild) identifizieren und jedes als eigenständige PNG-Datei wieder hinausschreiben. Das Ergebnis ist genau das, was der Autor in die Datei eingefügt hat, in der Auflösung, in der er es eingefügt hat. Der zweite besteht darin, Seiten als Bilder zu rendern: jede PDF-Seite in eine einzige Grafik mit gewählter Auflösung zu rastern und dabei Text, Vektorformen und Bilder gemeinsam als flache Pixel zu erfassen. Das Ergebnis ist ein Bild der Seite, nicht das Bild in der Seite.
Dieses Werkzeug macht die erste Variante. Bei einem zehnseitigen Dokument mit drei auf den Seiten 2 und 7 eingebetteten Fotos liefert es drei Bilddateien, nicht zehn Seitenbilder. Wenn Sie die zweite Variante wollen, das Rendern der Seite als Bild, verwenden Sie das Werkzeug PDF zu Bild. Die beiden Vorgänge zu unterscheiden ist der häufigste Verwechslungspunkt, wenn Benutzer das erste Mal ankommen: "PDF zu JPG"-Dienste machen meist die zweite Variante, und viele Benutzer landen dort, wenn sie die erste wollten. Die Anzahl der Ausgabedateien verrät es: Extraktion gibt die Anzahl der eingebetteten Bilder zurück; Seitenrendering gibt die Anzahl der Seiten zurück.
Wie dieses Werkzeug arbeitet
Das Werkzeug nutzt PDF.js, den in reinem JavaScript geschriebenen PDF-Renderer von Mozilla, denselben Motor, der Firefox' eingebaute PDF-Vorschau antreibt. Wenn Sie ein PDF auswählen, übergibt die File API des Browsers die Bytes ohne jeden Netzwerk-Hin-und-Zurück direkt an PDF.js. PDF.js parst die Querverweistabelle, den Trailer und den Dokumentkatalog innerhalb eines Web Workers, damit der Haupt-Thread reaktionsfähig bleibt. Für jede Seite fordert das Werkzeug die Operatorliste an und durchläuft jeden Aufruf von paintImageXObject und paintInlineImageXObject. Für jeden Bildoperator löst es das tatsächliche Bild-XObject über den Objekt-Cache von PDF.js auf, dekodiert es gemäß seinem Filter und Farbraum, zeichnet die Bitmap auf ein Offscreen-Canvas und exportiert das Canvas als PNG.
Breite, Höhe und ungefähre Dateigröße werden für die Galerieansicht erfasst. Wenn Sie auf "Alle als ZIP herunterladen" klicken, bündelt JSZip jedes extrahierte Bild in einem einzigen Archiv im Speicher, und der Download-Anker des Browsers löst das Speichern aus. Kein Teil dieses Vorgangs stellt eine Netzwerk-Anfrage. Sie können das direkt prüfen: Öffnen Sie die Entwicklerwerkzeuge des Browsers im Netzwerk-Tab, bevor Sie ein PDF auswählen, führen Sie die Extraktion aus und beobachten Sie, dass nichts Ihren Rechner verlässt. Die PDF.js-Engine und die JSZip-Bibliothek werden beim ersten Besuch einmal heruntergeladen und vom Browser gecacht, sodass spätere Besuche sofort laden und vollständig offline laufen.
Wie PDF Bilder speichern
Eine PDF-Datei ist ein Baum aus Objekten. Der Seitenbaum verweist auf Seitenobjekte; jedes Seitenobjekt verweist auf einen Content-Stream und ein Ressourcen-Wörterbuch. Der Eintrag XObject des Ressourcen-Wörterbuchs ordnet kurze Namen (wie Im1, Im2) Bild-XObject-Streams zu. Der Content-Stream zeichnet sie mit dem Operator Do: Eine Folge wie q 200 0 0 150 50 300 cm /Im1 Do Q bedeutet "Transformation setzen, das mit Im1 benannte Bild aus den Ressourcen zeichnen, Transformation wiederherstellen". Jedes Bild-XObject trägt Width und Height (Pixelabmessungen), ColorSpace (wie jede Komponente zu interpretieren ist), BitsPerComponent (1, 2, 4, 8 oder 16) und Filter (die Codec-Kette, die die Bytes komprimiert).
Für einen Extraktor ist das Feld Filter das wichtigste, weil es bestimmt, ob die Bytes direkt geschrieben werden können oder erst dekodiert werden müssen. In der Praxis treten sechs Filter auf. DCTDecode speichert die Bytes als vollständige JPEG-Datei, die mit der Endung .jpg direkt geschrieben werden kann; das sind etwa 60 bis 70 Prozent der Bilder in farbigen PDF. JPXDecode ist JPEG2000, in Konsumentendokumenten selten, aber in hochwertigen Druck-Pipelines anzutreffen. CCITTFaxDecode ist die Group-3- oder Group-4-Fax-Kompression für einbittige Schwarzweiß-Scans, häufig in gescannten Geschäftsarchiven. JBIG2Decode ist der effizientere Nachfolger, den Acrobats "Dateigröße reduzieren" und ABBYY FineReader nutzen. FlateDecode ist zlib-komprimierter Roh-Pixeldaten-Strom, häufig in Grafiken, Screenshots und PDF aus webzentrierten Autorenwerkzeugen. RunLengthDecode ist eine einfache Lauflängenkodierung, vor allem in älteren oder handgeschriebenen PDF zu finden.
Inline-Bilder, der leicht zu übersehende Fall
Die PDF-Spezifikation erlaubt es, kleine Bilder direkt in den Content-Stream einer Seite einzubetten, zwischen den Operatoren BI (begin image), ID (image data) und EI (end image), ohne dass sie zu einem benannten XObject werden. Das war eine Optimierung der frühen 1990er für winzige Grafiken wie Logos, Symbole und Aufzählungszeichen, gedacht, um den Aufwand eines separaten Objekts für ein Bild von wenigen hundert Byte zu vermeiden. Das Format ist ansonsten identisch mit einem Bild-XObject: dieselben Filter-, Farbraum- und Maßangaben, kompakt geschrieben.
Viele "Bilder extrahieren"-Werkzeuge verfehlen Inline-Bilder vollständig, weil sie nur die XObject-Tabelle des Ressourcen-Wörterbuchs durchgehen und dort halten. Dieses Werkzeug durchläuft die Operatorliste der Seite und greift sie über paintInlineImageXObject ab. Die praktische Folge: PDF mit Firmenlogos in der Kopfzeile (häufig inline) und PDF aus älteren Autorenwerkzeugen, die Inline-Bilder für Symbole verwenden, liefern mehr Bilder, als ein naiver XObject-Durchgang vermuten ließe. Wenn Sie die Extraktionszahl mit einem anderen Werkzeug vergleichen, ist das einer der Gründe für Unterschiede. Die anderen Gründe, weiter unten beschrieben, betreffen das Einbeziehen dekorativer Grafiken, Schablonenmasken und Wasserzeichen, die einige Werkzeuge standardmäßig ausfiltern.
Soft-Masks, Schablonen und Transparenz
Bildtransparenz in PDF ist selten innerhalb des Bildes selbst kodiert. Stattdessen komponiert die Seite ein Farbbild mit einer separaten einkanaligen "Soft-Mask" (Eintrag SMask im XObject-Wörterbuch). Das in einem Reader sichtbare Ergebnis ist die Komposition; das Farbbild allein extrahiert ist undurchsichtig. Für extrahierte Bilder, die für visuelle Weiterverwendung gedacht sind, kann das überraschen: Ein Logo, das aus einem PDF extrahiert wurde, bei dem der Autor eine SMask verwendet hat, kann als undurchsichtiges Rechteck statt als PNG mit transparentem Hintergrund erscheinen. Das aktuelle Verhalten ist, das farbige Bild-XObject ohne Rekomposition der SMask zu extrahieren, was dem Verhalten von pdfimages -png auf der Kommandozeile und dem Verhalten aller von uns getesteten Cloud-Extraktionsdienste entspricht.
Ein verwandtes Konzept ist das Flag ImageMask. Wenn ImageMask true ist, sind die Bytes keine Pixeldaten; sie sind eine einbittige Schablone, die definiert, wo die aktuelle Füllfarbe angewendet wird. Eine ImageMask einzeln zu extrahieren ergibt eine Schwarzweiß-Silhouette statt eines brauchbaren Bildes. Das Werkzeug meldet sie der Vollständigkeit halber in der Galerie, ihr Nutzen ist aber gering, sofern Sie nicht gezielt an der Silhouette interessiert sind. Nach Maßen sortieren und kleine Schablonen ignorieren, wenn sie die Ansicht überfüllen. Soft-Masks zu Alpha-tragenden PNG zu rekomponieren steht auf der Wunschliste, ist aber derzeit Desktop-Werkzeugen vorbehalten, weil es manchmal destruktiv ist: das Rekomponieren brennt die Hintergrundfarbe in das Ergebnis ein, was gewünscht sein kann oder auch nicht.
Farbräume und ihre Auswirkung auf die Ausgabe
Die meisten PDF im Jahr 2026 verwenden DeviceRGB (sRGB-ähnlich) oder DeviceCMYK. PDF.js dekodiert beide transparent und konvertiert CMYK vor dem Zeichnen auf das Canvas in RGB. Das extrahierte PNG ist daher immer RGB, auch wenn die Quelle CMYK war. Für rein visuelle Weiterverwendung ist das korrekt: Ein CMYK-Bild ist für den Druck gedacht und würde ohne Konvertierung nicht korrekt auf einer Website angezeigt. Für die Druckwiedergabe ist die Konvertierung näherungsweise, weil dem Ziel-Canvas kein Druckprofil zugeordnet ist. Wer auf Druck zielt, sollte das ursprüngliche PDF behalten und nicht über eine Extraktion umweg gehen; die Farbtreue wird besser sein, wenn die Druck-Pipeline das CMYK-Bild direkt liest.
ICCBased-Farbprofile, die an PDF-Bilder angehängt sind, werden von PDF.js beim Dekodieren respektiert, sodass das extrahierte PNG das erwartete Erscheinungsbild unter Standard-Sichtbedingungen annähert. Indizierte Farbräume (Palettenbilder, der typische 256-Farben-Fall aus alten GIF-Importen) werden bei der Extraktion entindiziert, was ein Vollfarb-PNG anstelle eines palettenbasierten erzeugt. Das ist das richtige Verhalten für visuelle Weiterverwendung, bedeutet aber, dass die Dateigröße eines extrahierten PNG größer sein kann als die Dateigröße des ursprünglichen indizierten Bildes im PDF. Der Kompromiss ist im Canvas-basierten Pipeline unvermeidlich, und wir bevorzugen Treue gegenüber Kompaktheit; wer möglichst kleine Dateien möchte, kann die Ausgabe anschließend durch den Bildkompressor schicken.
Reale Arbeitsabläufe, die Bildextraktion antreiben
- Grafiken für Folien oder Web wiederverwenden. Ein Designer oder Marketingverantwortlicher erhält das Ergebnis eines Kunden als PDF und benötigt die Fotos und Diagramme für eine Folienpräsentation, eine Website-Neugestaltung oder einen Social-Media-Beitrag. Acrobats Rechtsklick "Bild speichern" funktioniert ein Bild auf einmal; bei einem 60-seitigen Bericht mit 40 Bildern bedeutet das eine halbe Stunde Klicks gegenüber einem einzigen Drag-and-Drop in einen Browser-Tab und einem ZIP-Download.
- Einen Bildkatalog aufbauen. Ein Archivar, Bibliothekar oder Content-Auditor hat ein Korpus von PDF und braucht die Bilder, um sie zu katalogisieren, Alt-Texte zu verfassen oder einen visuellen Suchindex aufzubauen. Stapelextraktion gefolgt von einem ZIP-Download ist der Standardablauf; ein ordnerdurchlaufendes Skript auf dem Desktop anzubinden ist einfach, sobald die Browserseite gezeigt hat, dass die Extraktion das Erwartete liefert.
- Fotografie-Portfolios als PDF geliefert. Fotografinnen und Fotografen liefern Kundenarbeit gelegentlich als PDF-Galerie statt als Einzeldateien, besonders bei Porträt-Sessions und Eventreportagen. Der Kunde möchte die Einzeldateien. Die Extraktion gibt sie in der eingebetteten Auflösung zurück, was meist die Auflösung ist, die der Fotograf für die Druckversion gewählt hat.
- Bilder aus einem problematischen PDF retten. Ein PDF rendert in einem Reader nicht korrekt oder verhält sich unberechenbar, aber die zugrundeliegende Struktur ist intakt genug, dass PDF.js die Ressourcen-Wörterbücher parsen kann. Die Extraktion rettet die eingebetteten Bilder, selbst wenn das Dokument sich ansonsten schlecht verhält. Ein häufiges Rettungsszenario für unterwegs beschädigte Dateien oder mit inkonsistenten Signaturen gespeicherte Dokumente.
- Forensische und juristische Sichtung. Prüfer, die eine Discovery oder Beweis-Katalogisierung vorbereiten, brauchen jedes Bild eines Dokumentensatzes aufgelistet und exportierbar. Die Garantie "alle eingebetteten Bilder" zählt: eines zu übersehen ist ein Problem. Die operatorlistenbasierte Extraktion (statt nur XObject-Tabelle) ist der richtige Ansatz, weil sie Inline-Bilder mit erfasst, die manche Pipelines stillschweigend verlieren.
- OCR-Vorverarbeitung. Manche OCR-Pipelines arbeiten besser mit extrahierten Bildern als mit gerenderten Seiten, besonders wenn die Quellbilder hochauflösende Scans in einem niedriger aufgelösten Seitenlayout sind. Die Extraktion in nativer Auflösung bewahrt das OCR-fähige Detail, das ein Seitenrendering bei 150 oder 300 DPI verlieren würde.
- Akademische und journalistische Recherche. Diagramme, Fotos und Grafiken aus PDF werden zum Zitieren im Rahmen der Schranken des Urheberrechts, zum Faktencheck gegen die Originalquellen oder zum Vergleich zwischen Dokumenten herausgezogen. Forscher möchten oft auch die native Auflösung des eingebetteten Bildes, um Manipulationen oder Kompressionsartefakte zu erkennen, die das Seitenrendering verschleiern würde.
Häufige Fallstricke und was sie bedeuten
- "Das Werkzeug hat mehr Bilder extrahiert, als ich erwartet hatte." PDF enthalten oft Bilder, die Sie nicht direkt sehen: dekorative Hintergründe, die sich über Seiten wiederholen, Wasserzeichen, Kopf- und Fußzeilenornamente, Transparenzmasken (die technisch Bild-XObjects sind) und winzige Inline-Grafiken wie Kontrollkästchen. Eine vollständige Extraktion gibt sie alle zurück. Sortieren Sie die Galerie nach Maßen und ignorieren Sie kleine Miniaturen, wenn Sie nur die Hauptfotos wollten.
- "Das Werkzeug hat weniger Bilder extrahiert, als ich erwartet hatte." Meistens war der "fehlende" Inhalt kein Bild, sondern eine Vektorillustration: ein Adobe-Illustrator-Export, der als Zeichenoperatoren statt als Raster eingebettet wurde. Vektorinhalt ist kein Bild-XObject und nicht als Bild extrahierbar. Die einzige Möglichkeit, ihn als Raster zu erfassen, ist, die Seite mit dem Werkzeug PDF zu Bild zu rendern. Der andere Fall ist Text, der wie ein Bild aussieht (eine stilisierte Überschrift, mit einer Schrift gerendert); Text ist ebenfalls kein Bild.
- "Das extrahierte Bild ist undurchsichtig, aber die Version im Dokument hat einen transparenten Hintergrund." Das Dokument nutzt eine separate SMask für die Transparenz; das farbige XObject allein ist undurchsichtig. Die Rekomposition von Soft-Masks in die Ausgabe ist Desktop-Werkzeugen vorbehalten, weil sie manchmal destruktiv ist (sie brennt die Hintergrundfarbe in das Bild ein). Bearbeiten Sie das PNG vorerst in einem Werkzeug, das automatische Hintergrundentfernung unterstützt, oder holen Sie die Soft-Mask separat aus der Galerie, wenn Sie die Alpha-Form brauchen.
- "Manche Bilder wirken niedrig aufgelöst." PDF mindern die Bildauflösung beim Einbetten häufig, um die Dateigröße im Zaum zu halten. Ein 4000 Pixel breites Foto, das in ein Dokument importiert und dann durch Acrobats "Dateigröße reduzieren" geschickt wurde, kann letztlich mit 800 Pixeln Breite gespeichert sein. Die Extraktion liefert die gespeicherte Auflösung, nicht das Original. Die ursprüngliche Kameraauflösung lässt sich nur aus der Quelle, nicht aus dem PDF wiederherstellen.
- "Zwei extrahierte Bilder sehen aus wie Kacheln eines größeren Bildes." Manche PDF-Generatoren schneiden große Bilder in ein Kachelgitter, besonders wenn die Quelle einen Seitengrößen-Schwellenwert überschreitet. Die Kacheln erscheinen als separate XObjects; um das ganze Bild zu rekonstruieren, muss man sie in einem Desktop-Werkzeug mit Kenntnis des Seitenlayouts wieder zusammensetzen. Im Jahr 2026 ist das selten, da moderne PDF-Bibliotheken standardmäßig nicht mehr kacheln, aber ältere Dokumente zeigen das gelegentlich noch.
- "Das PDF hat 100 Seiten, aber nur wenige Bilder wurden extrahiert." Viele PDF bestehen vollständig aus Text und Vektorinhalt. Ein reines Textdokument enthält null eingebettete Bilder, egal wie viele Seiten. Wenn Sie jede Seite als Bild wollten, verwenden Sie stattdessen das Werkzeug PDF zu Bild, das jede Seite in eine einzelne PNG- oder JPG-Datei rendert und Text und Vektoren zusammen erfasst.
- "Das CMYK-Bild hat nach der Extraktion falsche Farben." Im strengen Sinn nicht; die Extraktion konvertiert CMYK für die Bildschirmanzeige nach RGB, und die Darstellung am Bildschirm ist näherungsweise, da das Ziel kein Druckprofil hat. Für druckgetreue Wiedergabe machen Sie keinen Umweg über die PNG-Extraktion. Behalten Sie das Original-PDF und nutzen Sie einen Druckablauf, der CMYK direkt liest.
Reine Browser-Extraktion versus Cloud
Die Cloud-Bildextraktionsdienste, die die Spitze der Suchergebnisse füllen (Smallpdf, ILovePDF, PDF24 Web, Sejda, CleverPDF), laden alle das PDF auf ihre Server, dekodieren serverseitig und liefern eine ZIP zurück an Ihren Browser. Ihre Datenschutzerklärungen sichern üblicherweise eine Löschung innerhalb einer Stunde und TLS während des Transports zu, und der geschäftliche Reputationsdruck auf die größeren Anbieter ist real. Nichts davon ändert die schlichte strukturelle Tatsache, dass Ihr Dokument und jedes Bild darin kurzzeitig auf fremdem Speicher lag und durch fremde Software lief. Bei sensiblem Material (Patientenakten, Kontoauszüge, interne Entwürfe, alles unter Geheimhaltungsvereinbarung) ist die bessere Haltung, die Datei gar nicht erst vom Gerät weglassen.
Dieses Werkzeug läuft vollständig im Browser-Tab. PDF.js parst das PDF lokal, dekodiert Bilder lokal, schreibt sie auf ein lokales Canvas und löst einen lokalen Download aus. Nach dem ersten Seitenaufbau wird keine Netzwerk-Anfrage mehr abgesetzt. Den Beweis können Sie in jedem Browser sehen: Öffnen Sie das Netzwerk-Panel der Entwicklerwerkzeuge, bevor Sie auf Extrahieren klicken, führen Sie die Extraktion aus und beobachten Sie, dass keine Anfrage mit Ihrer Datei oder Ihrem Bildinhalt ausgelöst wird. Der Preis der Verarbeitung im Browser ist, dass sehr große PDF (Hunderte Megabyte) langsamer sind als auf einem schnellen Server, aber die Datenschutzhaltung ist kategorisch eine andere. Die 50-MB-Grenze in diesem Werkzeug ist gesetzt, um Mobilgeräte vor Speicherüberlauf zu schützen, nicht weil die Architektur auf Desktop-Browsern keine größeren Dateien verarbeiten könnte.
Weitere häufig gestellte Fragen
Wie unterscheidet sich das von "PDF zu JPG" oder "PDF zu Bild"?
Zwei wirklich verschiedene Vorgänge. "PDF zu Bild" rastert jede Seite in eine einzige Grafik und erfasst Text, Vektoren und Bilder als flache Pixel; die Ausgabe ist ein Bild der Seite. "Bilder extrahieren" zieht die einzelnen Bildobjekte heraus, die der Autor in die Datei eingebettet hat; die Ausgabe ist das Bild in der Seite. Bei einem zehnseitigen Bericht mit drei Fotos auf den Seiten 2 und 7 gibt "PDF zu Bild" zehn Dateien zurück (eine pro Seite); "Bilder extrahieren" gibt drei zurück (die Fotos). Verwenden Sie für die erste Variante das Werkzeug PDF zu Bild.
Warum sind extrahierte Bilder PNG, wenn die Originale JPEG waren?
Die aktuelle Pipeline schickt jedes Bild über ein HTML-Canvas, das eine dekodierte Bitmap erzeugt, und kodiert diese Bitmap dann als PNG, um Transparenz zu erhalten, wo sie vorhanden ist. PNG ist verlustfrei: die Quantisierungsverluste des JPEG sind in der Bitmap bereits eingebrannt und bleiben exakt erhalten, ohne zweite Quantisierungsrunde. Die ausgegebenen PNG-Dateien sind größer als die ursprünglichen JPEG-Bytes, die Qualität verschlechtert sich jedoch nicht. Ein zukünftiger Modus, der die rohen JPEG-Bytes direkt schreibt (entsprechend pdfimages -j), steht auf der Wunschliste; der Gewinn dabei sind kleinere Dateien, nicht höhere Qualität.
Findet das Werkzeug alle Bilder, auch die als Hintergrund oder inline verwendeten?
Ja. Das Werkzeug durchläuft die Operatorliste der Seite und löst sowohl benannte Bild-XObjects (Zeichenoperator Do) als auch direkt im Content-Stream zwischen den Operatoren BI, ID und EI eingebettete Inline-Bilder auf. Viele Extraktionswerkzeuge übersehen Inline-Bilder, weil sie nur die XObject-Tabelle abgehen; dieses nicht. Schablonenmasken (ImageMask true) werden ebenfalls gemeldet, sind aber eher Silhouetten als Bilder und nur in eingeschränkten Fällen nützlich.
Wie groß darf das PDF sein?
In der aktuellen Implementierung bis zu 50 MB. Die Grenze ist durch den Speicherdruck des Browsers auf Mobilgeräten gesetzt: große PDF halten das geparste Dokument und die dekodierten Bilder gleichzeitig im Speicher, und ein Überschreiten des verfügbaren Heap des Geräts führt dazu, dass das Betriebssystem den Tab beendet. Desktop-Browser können in der Regel deutlich mehr verarbeiten; die Obergrenze ist sicherheitshalber konservativ gewählt. Für sehr große Dokumente ist das Desktop-Werkzeug pdfimages -all aus poppler-utils das richtige.
Ändert die Extraktion das Urheberrecht an den Bildern?
Nein. In einem PDF eingebettete Bilder behalten die Rechte, die dem Autor des Dokuments, dem Fotografen oder dem Lizenzinhaber zustehen. Ein Bild aus einem PDF zu extrahieren, zu dem Sie legalen Zugang haben, ist mechanisch gleichwertig damit, einen Screenshot davon anzufertigen; was Sie mit der extrahierten Datei tun, richtet sich nach denselben Urheberregeln wie die Quelle. Die Nutzung als persönliche Referenz ist meist unstrittig; Weiterverbreitung oder kommerzielle Nutzung hängt von den Lizenzbedingungen der Quelle ab.
Gibt es ein Desktop- oder Kommandozeilen-Äquivalent?
Ja, zwei starke. pdfimages aus poppler-utils ist die nächste Entsprechung: pdfimages -all input.pdf prefix- extrahiert jedes Bild nach Möglichkeit in seiner Originalkodierung. Installation mit brew install poppler auf macOS, apt install poppler-utils auf Debian oder Ubuntu, oder Windows-Binärdateien von der Projektseite. Das andere ist mutool extract aus MuPDF, das Bilder und Schriften zusammen extrahiert. Beide sind lokal, kostenlos und gut gepflegt.