Kostenloser PDF-zu-Text-Konverter

Extrahieren Sie sofort den gesamten Textinhalt aus PDF-Dateien. Als TXT herunterladen oder in die Zwischenablage kopieren. Ihre Dateien verlassen nie Ihr Gerät.

Ihre Dateien verlassen nie Ihr Gerät

PDF-Datei hier ablegen oder klicken zum Durchsuchen

Unterstützt PDF · bis zu 50 MB

Extraktionsstatistiken

0 Seiten

0 Zeichen

0 Wörter

So funktioniert's

PDF hochladen: Legen Sie eine einzelne PDF-Datei ab oder wählen Sie sie aus, um Text daraus zu extrahieren.
Optionen konfigurieren: Wählen Sie den Stil des Seitentrenners und ob Seitenzahlen eingeschlossen werden sollen.
Text extrahieren: Klicken Sie auf "Text extrahieren", um das PDF zu verarbeiten und den Inhalt anzuzeigen.
Herunterladen oder kopieren: Kopieren Sie den extrahierten Text in die Zwischenablage oder laden Sie ihn als TXT-Datei herunter.

Warum PDF-Text extrahieren?

Das Konvertieren von PDF-Text in reinen Text ist nützlich für die Verarbeitung von Dokumentinhalten, das Durchsuchen innerhalb von PDFs, den Import von Daten in andere Anwendungen, das Erstellen von Sicherungskopien von Textinhalten oder die Analyse von Dokumenttexten. Dieses Werkzeug extrahiert den gesamten Text unter Beibehaltung der Lesereihenfolge, was es ideal für Berichte, wissenschaftliche Arbeiten, Verträge und andere textlastige Dokumente macht.

Funktionen

Vollständige Extraktion: Extrahieren Sie den gesamten Text von jeder Seite Ihres PDFs.
Flexible Formatierung: Wählen Sie Seitentrenner und schließen Sie Seitenzahlen ein oder aus.
Schnelles Kopieren: Kopieren Sie den extrahierten Text mit einem Klick direkt in die Zwischenablage.
Als TXT herunterladen: Speichern Sie den extrahierten Text als reine Textdatei zur späteren Verwendung.
Statistiken: Sehen Sie die Anzahl der Seiten, Zeichen und Wörter des extrahierten Textes.
Privatsphäre: Die gesamte Verarbeitung erfolgt lokal in Ihrem Browser. Dateien werden nie auf einen Server hochgeladen.
Schnell: Sofortige Extraktion ohne Warten oder Warteschlangen.

Häufig gestellte Fragen

Kann ich Text aus gescannten PDFs extrahieren?

Dieses Werkzeug extrahiert Text aus PDFs, die auswählbaren Text enthalten. Gescannte PDFs (bildbasiert) enthalten keinen extrahierbaren Text und würden OCR (optische Zeichenerkennung) erfordern, was dieses Werkzeug nicht bietet. Verwenden Sie für gescannte Dokumente zuerst ein OCR-Werkzeug.

Was ist die maximale Dateigröße?

Dateien bis zu 50 MB werden unterstützt. Größere Dateien funktionieren möglicherweise je nach verfügbarem Browserspeicher, aber die Extraktion wird langsamer sein.

Bewahrt das Werkzeug die Formatierung?

Der extrahierte Text ist reiner Text, daher werden Formatierungen wie Fettdruck, Kursivschrift und Farben nicht beibehalten. Der Textinhalt und die Reihenfolge werden jedoch so genau wie möglich beibehalten.

Kann ich Text auf Mobilgeräten extrahieren?

Ja. Dieses Werkzeug funktioniert auf Desktop-, Tablet- und Mobilbrowsern. Tippen Sie einfach, um eine PDF-Datei auszuwählen und Text zu extrahieren.

Wird meine PDF auf einen Server hochgeladen?

Nein. Die gesamte Textextraktion erfolgt lokal in Ihrem Browser mit PDF.js. Ihre PDF verlässt nie Ihr Gerät, was vollständige Privatsphäre und Sicherheit gewährleistet.

Kann ich Text aus passwortgeschützten PDFs extrahieren?

Ja, wenn die PDF mit einem Benutzerpasswort (nicht mit einem Besitzerpasswort) geschützt ist. Sie müssten das Passwort zuerst mit einem anderen Werkzeug entfernen und dann mit diesem Werkzeug Text extrahieren.

Was ist ein PDF-Textextraktor?

Ein PDF-Textextraktor zieht den eingebetteten Text aus einem PDF-Dokument in reinen UTF-8-Text, den Sie überall einfügen können. Das Ergebnis sind nur die Zeichen: keine Schriftarten, keine Farben, kein Layout. Dies unterscheidet sich grundlegend von OCR (optische Zeichenerkennung), bei der Pixel aus einem Bild gelesen und die darin dargestellten Buchstaben erraten werden. Die Extraktion liest den Text direkt aus dem Inhaltsstrom des PDFs, sie ist also exakt und sofort; OCR ist annähernd und langsam.

Der Grund, warum die Extraktion funktioniert, ist, dass die meisten PDFs Text als positionierte Glyphenoperatoren speichern (Tj für einzelne Textzeichenketten, TJ für Arrays mit Anpassungen) zusammen mit x- und y-Koordinaten auf der Seite. Der Extraktor durchläuft den Inhaltsstrom jeder Seite, sammelt jeden Glyphenoperator mit seiner Position und setzt die Lesereihenfolge wieder zusammen. Für klaren Fließtext ist dies im Wesentlichen perfekt. Für mehrspaltige Layouts, Fußnoten und komplexe Tabellen verlässt sich der Extraktor auf Heuristiken, die meistens funktionieren, aber Überraschungen produzieren können.

Dieses Werkzeug verwendet pdf.js, den JavaScript-PDF-Renderer, den Mozilla 2011 gestartet hat und der mit Firefox ausgeliefert wird. Alles läuft in Ihrem Browser: Die PDF-Datei wird in den Speicher geladen, lokal analysiert, der Text wird auf Ihrem Rechner extrahiert und das Ergebnis erscheint in einem Textfeld, das Sie kopieren oder herunterladen können. Keine Datei wird auf einen Server hochgeladen. Die Bibliothek unterstützt PDF 1.0 bis PDF 2.0 (ISO 32000-2) und die meisten modernen Verschlüsselungsschemata.

Was im Werkzeug enthalten ist

Oben im Werkzeug befindet sich eine Ablagezone: Klicken Sie, um eine PDF-Datei auszuwählen, oder ziehen Sie eine aus Ihrem Dateimanager hinein. Die Obergrenze von 50 MB ist eine komfortable Browser-Speichergrenze; pdf.js kann größere Dateien verarbeiten, aber die Extraktion verlangsamt sich, sobald das Dokument mehr als ein paar hundert Seiten umfasst. Sobald eine Datei geladen ist, zeigt ein Info-Panel den Dateinamen, die Seitenzahl und die Dateigröße an, damit Sie bestätigen können, dass Sie das richtige Dokument ausgewählt haben.

Unter den Dateiinformationen befinden sich zwei Extraktionsoptionen. Seitenzahlen einbeziehen schaltet um, ob die Nummer jeder Seite dem extrahierten Text vorangestellt wird. Seitentrennzeichen lässt Sie wählen, wie Seiten getrennt werden: ein beschrifteter Balken (--- Seite 3 ---), eine Leerzeile, eine explizite [PAGE BREAK]-Markierung oder gar nichts. Die Leerzeilen-Option eignet sich am besten zum Wiederimportieren in ein Schreibwerkzeug; der beschriftete Balken eignet sich am besten zum Navigieren in langen Dokumenten.

Klicken Sie auf Text extrahieren und das Werkzeug durchläuft jede Seite, zieht den Textinhalt heraus, wendet Ihre Trennzeicheneinstellung an und gibt das Ergebnis in den Textbereich darunter aus. Statistiken erscheinen darunter: verarbeitete Seiten, Gesamtzeichenanzahl, Gesamtwortanzahl. Mit zwei Schaltflächen können Sie das Ergebnis in die Zwischenablage kopieren oder als .txt-Datei herunterladen. Die Ausgabe ist reines UTF-8, bereit zum Einfügen in eine Notiz, eine E-Mail, eine Tabellenkalkulation oder einen Code-Editor.

Geschichte und Hintergrund

PostScript und das Problem der druckbaren Seite (1982)

John Warnock und Chuck Geschke verließen Xerox PARC und gründeten 1982 Adobe. Ihr erstes Produkt war PostScript, eine Seitenbeschreibungssprache, die jede druckbare Seite mit einer kleinen Reihe von Zeichenoperatoren beschreiben konnte: bewegen, Linie, Kurve, füllen, Glyphe platzieren. PostScript ermöglichte jedem Drucker, jede Seite exakt wiederzugeben, war aber für den Druck konzipiert, nicht für die Anzeige oder Bearbeitung. PostScript ist die technische Grundlage, auf der PDF später aufgebaut wurde.

PDF 1.0 und Acrobat (1993)

1991 verbreitete Warnock ein internes Adobe-Papier namens Camelot, das ein portables Dokumentenformat beschrieb, das von PostScript abgeleitet, aber für die Bildschirmanzeige und den wahlfreien Seitenzugriff optimiert war. Die erste öffentliche Veröffentlichung war Acrobat 1.0 und PDF 1.0 am 15. Juni 1993. Die frühe Akzeptanz war langsam: Viewer kosteten Geld und Dateien waren groß. Adobe machte den Acrobat Reader 1994 kostenlos und das Format setzte sich Ende der 1990er Jahre für Formulare, technische Handbücher und Regierungsdokumente durch.

PDF/A für Langzeitarchive (2005)

PDF/A wurde im Oktober 2005 als ISO 19005-1 veröffentlicht. Es ist eine eingeschränkte Teilmenge von PDF, die für die Archivierung konzipiert ist: keine externen Abhängigkeiten (alle Schriftarten eingebettet), kein JavaScript, keine Verschlüsselung, kein Audio oder Video. Der Punkt ist, dass eine in 50 Jahren geöffnete PDF/A-Datei genauso aussehen wird wie heute. Die meisten Staatsarchive, Gerichte und Unternehmensaktensysteme verlangen PDF/A für die Langzeitspeicherung. Die Textextraktion aus PDF/A ist ungewöhnlich zuverlässig, weil das Format ToUnicode-Schriftartzuordnungen vorschreibt.

PDF wird ein ISO-Standard (2008)

Adobe übergab 2008 die Kontrolle über die PDF-Spezifikation an die Internationale Organisation für Normung. ISO 32000-1:2008 kodifizierte PDF 1.7 als offenen internationalen Standard. Von diesem Zeitpunkt an konnte jeder einen vollständig konformen PDF-Reader implementieren, ohne PDF von Adobe zu lizenzieren. ISO 32000-2 folgte 2017 (PDF 2.0) und fügte native Unterstützung für neuere Funktionen wie verbesserte digitale Signaturen und HDR-Rendering hinzu.

pdf.js eröffnet den In-Browser-PDF-Viewer (2011)

Andreas Gal bei Mozilla startete pdf.js Mitte 2011 als experimentelles Projekt, um PDF-Dokumente nur mit HTML5, JavaScript und Canvas zu rendern. Vor pdf.js erforderte das Anzeigen einer PDF in einem Browser ein Plugin (Adobe Reader-Plugin, Foxit oder ähnlich). pdf.js machte die native browserbasierte PDF-Anzeige möglich. Mozilla bündelte es im Februar 2013 in Firefox 19, wodurch die Notwendigkeit jeglichen PDF-Plugins entfiel. Es ist die Bibliothek, die dieser Extraktor verwendet.

Chrome veröffentlicht PDFium (2014)

Google stellte PDFium im Mai 2014 als Open Source zur Verfügung. PDFium ist eine andere PDF-Engine, abgeleitet vom kommerziellen Foxit PDF SDK, und sie ist das, was das PDF-Rendering innerhalb von Chrome und Edge antreibt. PDFium ist in C++ geschrieben; pdf.js ist in JavaScript geschrieben. Aus Extraktionssicht produzieren beide Engines ähnlichen Text, aber die PDF/A- und Formularbehandlung variieren. Dieses Werkzeug verwendet pdf.js, weil es nativ in jedem Browser ohne Plugins oder kompilierte Binärdateien läuft.

Praktische Arbeitsabläufe

Zitate aus einem Forschungspapier extrahieren

Legen Sie das PDF ab, klicken Sie auf Extrahieren, scrollen Sie, um die gewünschte Passage zu finden, und kopieren Sie sie in Ihre Notizen oder Ihren Zitatmanager. Einspaltige Papiere kommen sauber heraus. Zweispaltige Papiere (typisch für Konferenz- und Zeitschriftenstil) können Text aus der linken und rechten Spalte verschränken; in diesem Fall kopieren Sie jede Spalte manuell, anstatt sich auf die globale Extraktion zu verlassen. Für lange Zitate bevorzugen Sie das Leerzeilen-Seitentrennzeichen, damit Absatzumbrüche erhalten bleiben.

Einen Vertrag nach bestimmten Klauseln durchsuchen

Rechtsverträge umfassen oft hunderte von Seiten und die eingebaute Suche des PDF-Readers verfehlt den Kontext. Extrahieren Sie den Volltext, fügen Sie ihn in einen Texteditor ein und verwenden Sie Suchen oder grep mit einem breiteren Kontextfenster (5 Zeilen davor und danach). Dies ist schneller als Scrollen und ermöglicht es Ihnen, einen regulären Ausdruck für Muster wie alle Klauseln zu schreiben, die Haftung oder Kündigung erwähnen. Behalten Sie das beschriftete Seitentrennzeichen, damit Sie den ursprünglichen Ort im PDF lokalisieren können.

Massentext für ein Schreib- oder Übersetzungsprojekt

Wenn Sie ein langes PDF-Dokument übersetzen, umschreiben oder zusammenfassen müssen, ist der erste Schritt, den Rohtext herauszubekommen. Einmal extrahieren, die .txt-Datei speichern und von dort aus arbeiten. Vermeiden Sie es, direkt aus einem PDF-Reader zu kopieren, was oft Zeilenumbrüche an den falschen Stellen einführt und Wörter über Seitengrenzen hinweg bricht. Das Leerzeilen-Trennzeichen funktioniert gut als Eingabe für ein Übersetzungstool oder einen LLM.

Belege in eine Tabellenkalkulation ziehen

Moderne per E-Mail gesendete Belege und Rechnungen sind oft PDFs mit eingebettetem Text statt Scans. Extrahieren, dann die Summen mit einem regulären Ausdruck analysieren. Für wiederkehrende Formate (ein Anbieter, der jeden Monat dasselbe Rechnungslayout sendet) kann ein fünfzeiliges Skript Datum, Gesamtbetrag und Steuerfelder automatisch in eine Tabellenkalkulation ziehen. Eingescannte Belege funktionieren nicht; die brauchen zuerst OCR.

E-Books auf dem falschen Gerät lesen

PDF ist ein schlechtes Format für E-Reader, weil die Seitengröße fest ist; der Text fließt nicht um. Extrahieren Sie den Text, fügen Sie ihn in einen EPUB-Konverter ein und jetzt fließt das Buch auf jedem Bildschirm um. Seitenzahlen und Fußnoten können vor der Konvertierung manuell entfernt werden. Dieser Trick ist am nützlichsten für Fachbücher und Konferenzbände, die Verlage nur als PDF veröffentlichen.

Sitzungsprotokolle als Klartext teilen

Wenn ein Kollege Sitzungsprotokolle als PDF schickt und Sie eine Zusammenfassung in Slack oder ein Wiki einfügen wollen, extrahieren Sie zuerst. Der Text kommt sauber heraus und Sie können jeden beliebigen Teil ohne seltsame Schriftartefakte oder versteckte Formatierung einfügen. Für Protokolle mit Aktionspunkten hilft das beschriftete-Balken-Seitentrennzeichen, den ursprünglichen Dokumentabschnitt zu lokalisieren, falls später Fragen auftauchen.

Häufige Fallstricke

Eingescannte PDFs produzieren leere Ausgabe

Wenn ein PDF durch Scannen eines Papierdokuments erstellt wurde (ein Flachbett-Scan, ein Telefon-Foto oder eine Kopierer-Ausgabe), enthält es ein Bild der Seite, nicht den zugrunde liegenden Text. Der Extraktor durchläuft den Inhaltsstrom auf der Suche nach Textoperatoren und findet keine, also ist die Ausgabe leer oder enthält nur verirrte Seitenzahlen, falls diese manuell getippt wurden. Die Lösung besteht darin, das PDF zuerst durch OCR laufen zu lassen (Werkzeuge wie Tesseract, Adobe Acrobat Text erkennen oder ABBYY FineReader), das eine versteckte Textebene hinzufügt, die dieses Werkzeug dann extrahieren kann.

Mehrspaltige Layouts können Text verschränken

Akademische Zeitschriften, Magazine und Zeitungen verwenden in der Regel zwei oder drei Spalten pro Seite. pdf.js extrahiert jeden Textlauf nach seiner Position auf der Seite und verwendet Heuristiken, um die Lesereihenfolge zu rekonstruieren, aber diese Heuristiken nehmen einen einspaltigen Fluss an. Das Ergebnis für eine mehrspaltige Seite kann sein: erste Zeile der linken Spalte, erste Zeile der rechten Spalte, zweite Zeile der linken Spalte und so weiter. Für diese Layouts extrahieren Sie eine Seite nach der anderen und wählen die Spalten nach Augenmaß aus, oder verwenden Sie ein layout-bewusstes Werkzeug wie die Python-Bibliothek pdfplumber.

Benutzerdefinierte Schriftcodierungen produzieren Kauderwelsch

Ein PDF kann jede Schriftart verwenden, und die Schriftart kann ihre Glyphen-IDs auf einen beliebigen Zeichencode abbilden, den der Autor wählt. PDF/A und die meisten modernen PDFs enthalten eine ToUnicode-Zuordnung, die besagt, dass Glyphe 5 den Buchstaben A bedeutet, aber ältere oder schlampige PDFs überspringen manchmal die Zuordnung. Ohne ToUnicode ist der extrahierte Text die rohen Glyphen-IDs (oft als Kästchen, Zahlen oder zufällige Buchstaben angezeigt), und es gibt keine Möglichkeit, die ursprünglichen Zeichen ohne OCR wiederherzustellen. Wenn nur bestimmte Wörter falsch aussehen, ist die Ursache normalerweise ein fehlendes ToUnicode für eine einzelne eingebettete Schriftart.

Ligaturen können als kombinierte Zeichen extrahiert werden

Professionelle Typografie kombiniert bestimmte Buchstabenpaare (fi, fl, ff, ffi) zu einzelnen Glyphen, die Ligaturen genannt werden. Das PDF kann die Ligatur als Unicode-Codepunkt U+FB01 (die fi-Ligatur) speichern, anstatt der beiden Buchstaben f und i. Der extrahierte Text enthält den Ligaturen-Codepunkt, den die meisten Editoren korrekt darstellen, aber einige Textverarbeitungstools verschlucken sich daran. Wenn Sie die Ausgabe in einen Suchindex oder ein Tool für natürliche Sprache einspeisen, führen Sie eine einzeilige Ersetzung durch, um U+FB01 zu fi und U+FB02 zu fl zu normalisieren.

Kopf- und Fußzeilen wiederholen sich auf jeder Seite

Die meisten PDFs haben eine laufende Kopfzeile (Kapiteltitel, Dokumenttitel) und Fußzeile (Seitenzahl, Copyright-Zeile) auf jeder Seite. Der Extraktor nimmt sie auf, weil sie echter Text auf der Seite sind, und Sie enden mit derselben Zeile, die sich in einem 200-seitigen Dokument 200 Mal wiederholt. Die Lösung ist ein einfaches Deduplizierungsskript oder ein manueller Suchen-und-Ersetzen-Durchgang nach der Extraktion. Für lange Dokumente ist dies manchmal der größte Aufräumschritt.

Mathematische Gleichungen und Formeln extrahieren selten sauber

Mathematik wird mit einzelnen Glyphen aus speziellen Symbolschriften (Computer Modern, STIX) positioniert. Der Extraktor liest die Glyphen, verliert aber die räumlichen Beziehungen, die x im Quadrat von x mal 2 unterscheiden. Inline-Gleichungen wie E gleich mc im Quadrat kommen verstümmelt heraus, und Display-Gleichungen kommen als durcheinandergewürfelte Symbolsequenzen heraus. Für mathematiklastige PDFs verwenden Sie ein Werkzeug, das die Gleichungsstruktur erhält (MathPix snip, Adobe Acrobat Pro mit Gleichungsumbruch) oder extrahieren Sie die Gleichungen als Bilder.

Datenschutz und Datenverarbeitung

Die PDF-Datei, die Sie in das Werkzeug ablegen, bleibt die ganze Zeit auf Ihrem Gerät. pdf.js ist eine JavaScript-Bibliothek, die in Ihrem Browser läuft, nicht auf einem entfernten Server. Die Datei wird von Ihrem Browser in den Speicher geladen, Seite für Seite analysiert, und der extrahierte Text erscheint im Textfeld auf derselben Seite. Wir laden die Datei niemals hoch, protokollieren niemals ihren Inhalt und analysieren sie niemals. Das ist wichtig, weil PDFs oft vertrauliche Informationen enthalten: Verträge, medizinische Aufzeichnungen, juristische Korrespondenz, Finanzberichte.

Sobald die Seite geladen ist, funktioniert das Werkzeug offline. Sie können die Internetverbindung trennen, ein PDF ablegen, es extrahieren und das Ergebnis kopieren, ohne dass Ihre Daten jemals eine andere Maschine berühren. Der extrahierte Text verlässt Ihre Maschine nur, wenn Sie ihn selbst irgendwo einfügen oder senden. Viele SaaS-PDF-Extraktoren senden Ihre Datei zur Verarbeitung an einen Cloud-Dienst; für sensible Dokumente ist das genau das, was Sie vermeiden wollen.

Wann dieses Werkzeug nicht zu verwenden ist

Eingescannte oder reine Bild-PDFs (benötigen zuerst OCR)

Wenn Ihr PDF ein Scan von Papier oder eine Reihe von Fotos ist, gibt es keinen eingebetteten Text zum Extrahieren; dieses Werkzeug gibt leere Ergebnisse zurück. Lassen Sie das PDF zuerst durch eine OCR-Engine laufen, um eine Textebene hinzuzufügen: Tesseract (kostenlos, Kommandozeile, sehr gut für Englisch und lateinische Schriften), Adobe Acrobat Pro (kostenpflichtig, beste Layout-Erhaltung) oder ABBYY FineReader (kostenpflichtig, am besten für nicht-lateinische Schriften und komplexe Dokumente). Nach dem OCR funktioniert dieser Extraktor normal.

Ausfüllbare PDF-Formulare mit Feldwerten

Ein PDF-Formular speichert Feldwerte (den Text, den Sie in ein Namensfeld getippt haben, den angekreuzten Zustand eines Kontrollkästchens) getrennt vom statischen Seitentext. Dieser Extraktor liest nur den statischen Seitentext, also werden Formularwerte verfehlt. Um Formulardaten zu extrahieren, verwenden Sie eine PDF-Formularbibliothek, die das AcroForm- oder XFA-Dictionary direkt liest (pdftk, Adobe Acrobat Daten exportieren oder die form-field-API von python-pdfplumber).

Wenn Sie die Formatierung erhalten müssen

Klartext verliert die gesamte Formatierung: Fett, Kursiv, Listen, Tabellen, Überschriften, Farben, Schriftarten. Wenn Sie ein bearbeitbares Dokument benötigen, das das Layout beibehält, verwenden Sie stattdessen einen PDF-zu-Word-Konverter (der ein strukturiertes Word-Dokument mit Absatzstilen und Tabellen erstellt) oder PDF-zu-HTML für webfreundliche Ausgabe. PDF-zu-Text ist für den Fall, dass Sie wirklich nur die Wörter brauchen.

Verschlüsselte PDFs ohne das Passwort

PDFs können mit einem Benutzerpasswort (erforderlich zum Öffnen der Datei) oder einem Eigentümerpasswort (beschränkt Aktionen wie Drucken oder Kopieren) verschlüsselt werden. pdf.js benötigt das Benutzerpasswort, um eine verschlüsselte Datei zu öffnen; ohne es ist keine Extraktion möglich. Entfernen Sie das Passwort zuerst mit einem PDF-Entsperrungstool (nur bei Dokumenten, auf die Sie zugreifen dürfen) und extrahieren Sie dann. Das Eigentümerpasswort blockiert manchmal das Kopieren innerhalb des Adobe Readers, blockiert hier aber nicht die Extraktion.

Weitere Fragen

Was ist eine PDF-Textebene?

Eine Textebene ist der Teil eines PDFs, der Zeichen als maschinenlesbaren Text (Tj- und TJ-Operatoren im Inhaltsstrom) und nicht als Pixel speichert. Digitale PDFs, die von Word, LaTeX oder Web-zu-PDF-Werkzeugen erstellt werden, haben immer eine Textebene. Eingescannte PDFs nicht, bis Sie eine mit OCR hinzufügen. Die Textebene ist es, was Suche, Kopieren-Einfügen, Bildschirmleseprogramme und Werkzeuge wie diesen Extraktor zum Funktionieren bringt.

Warum ist ein Teil meines extrahierten Textes durcheinander oder in falscher Reihenfolge?

PDFs speichern Text nicht in Lesereihenfolge; sie speichern ihn als Glyphenoperatoren an x- und y-Positionen auf der Seite. Der Extraktor rekonstruiert die Lesereihenfolge, indem er von oben nach unten und innerhalb von Zeilen von links nach rechts sortiert. Dies funktioniert für einspaltigen Fluss, kann aber Spalten verschränken, Überschriften mit Fließtext mischen oder Absätze an Spaltenumbrüchen teilen. Für komplexe Layouts versuchen Sie, Seite für Seite zu kopieren, oder verwenden Sie eine layout-bewusste Python-Bibliothek wie pdfplumber.

Kann ich Text aus einem PDF mit Hunderten von Seiten extrahieren?

Ja, aber rechnen Sie damit, dass es länger dauert und mehr Speicher verbraucht. Jede Seite wird sequenziell in JavaScript analysiert, das single-threaded ist, also kann ein 500-seitiges Buch je nach Ihrer Maschine und der Komplexität der Seiten 20 bis 60 Sekunden dauern. Die Speicherobergrenze des Browsers (einige GB für Desktop-Chrome, weniger für Mobilgeräte) begrenzt die Gesamtdateigröße mehr als die Seitenzahl. Wenn ein riesiges PDF hängt, versuchen Sie, es zuerst mit dem PDF-Splitter-Werkzeug zu teilen und in Stücken zu extrahieren.

Was ist PDF/A und warum ist sein Text leichter zu extrahieren?

PDF/A ist die archivarische Teilmenge von PDF, die durch ISO 19005 definiert ist. Sie erfordert, dass alle Schriftarten mit einer ToUnicode-Zuordnung eingebettet sind, dass alle Farbprofile in sich abgeschlossen sind und dass keine externen Ressourcen referenziert werden. Die ToUnicode-Anforderung ist das, was die Extraktion zuverlässig macht: jede Glyphe im Dokument wird auf ein Standard-Unicode-Zeichen zurück abgebildet. Nationalarchive, Gerichte und Unternehmensaktensysteme verwenden PDF/A genau deshalb, damit der Text Jahrzehnte später noch extrahierbar bleibt.

Wie genau ist die Extraktion im Vergleich zu Adobe Acrobat?

Für unkomplizierte digitale PDFs ist die Ausgabe Zeichen für Zeichen identisch. Acrobat hat ausgefeiltere Heuristiken für die Handhabung komplexer mehrspaltiger Layouts und Tabellen, so dass für diese spezifischen Fälle seine Ausgabe lesbarer sein kann. pdf.js (dieses Werkzeug) wird seit 2011 aktiv entwickelt und besteht jetzt die meisten Konformitätstests der PDF-Spezifikation. Für typische Büro- und Forschungsdokumente ist der Unterschied vernachlässigbar.

Unterstützt das Werkzeug nicht-lateinische Schriften (Chinesisch, Arabisch, Kyrillisch)?

Ja, vorausgesetzt, das PDF hat eine ordnungsgemäße ToUnicode-Zuordnung für diese Zeichen (was jedes moderne PDF hat). Der extrahierte Text ist UTF-8 und wird in jedem modernen Editor korrekt dargestellt. Rechts-nach-links-Schriften wie Arabisch und Hebräisch werden in logischer Reihenfolge extrahiert, nicht in visueller Reihenfolge, was Sie für die weitere Verarbeitung wollen. CJK-Extraktion (Chinesisch, Japanisch, Koreanisch) wird vollständig unterstützt, weil pdf.js das CIDFont-System handhabt, das PDF für diese Schriften verwendet.