無料PDFテキスト変換ツール
PDFファイルからすべてのテキストコンテンツを瞬時に抽出します。TXTとしてダウンロードするか、クリップボードにコピーします。ファイルがデバイスから出ることはありません。
PDF対応 · 最大50 MB
使い方
- PDFをアップロード: テキストを抽出するPDFファイルを1つドロップまたは選択します。
- オプションを設定: ページ区切りのスタイルとページ番号を含めるかどうかを選択します。
- テキスト抽出: 「テキスト抽出」をクリックしてPDFを処理し、コンテンツを表示します。
- ダウンロードまたはコピー: 抽出されたテキストをクリップボードにコピーするか、TXTファイルとしてダウンロードします。
なぜPDFテキストを抽出するのか?
PDFのテキストを平文に変換することは、文書コンテンツの処理、PDF内の検索、他のアプリケーションへのデータインポート、テキストコンテンツのバックアップ作成、または文書テキストの分析に役立ちます。このツールは、読み取り順序を保持したまますべてのテキストを抽出するため、レポート、研究論文、契約書、その他のテキスト重視の文書に最適です。
機能
- 完全な抽出: PDFのすべてのページからすべてのテキストを抽出します。
- 柔軟な書式設定: ページ区切りを選択し、ページ番号を含めるか除外します。
- クイックコピー: 抽出したテキストをワンクリックで直接クリップボードにコピーします。
- TXTとしてダウンロード: 抽出したテキストを平文のテキストファイルとして保存して後で使用できます。
- 統計情報: 抽出されたテキストのページ数、文字数、単語数を表示します。
- プライバシー: すべての処理はブラウザ内でローカルに行われます。ファイルがサーバーにアップロードされることはありません。
- 高速: 待ち時間や行列なしの即時抽出。
よくある質問
スキャンしたPDFからテキストを抽出できますか?
このツールは、選択可能なテキストを含むPDFからテキストを抽出します。スキャンされたPDF(画像ベース)には抽出可能なテキストが含まれておらず、OCR(光学文字認識)が必要になりますが、このツールでは提供されていません。スキャンされた文書の場合は、まずOCRツールを使用してください。
ファイルサイズの制限はありますか?
最大50 MBのファイルがサポートされています。ブラウザの利用可能なメモリによってはより大きなファイルも動作する場合がありますが、抽出は遅くなります。
ツールは書式を保持しますか?
抽出されたテキストは平文のため、太字、イタリック、色などの書式は保持されません。ただし、テキストの内容と順序は可能な限り正確に維持されます。
モバイルでテキストを抽出できますか?
はい。このツールはデスクトップ、タブレット、モバイルブラウザで動作します。PDFファイルを選択してテキストを抽出するには、タップするだけです。
PDFはサーバーにアップロードされますか?
いいえ。すべてのテキスト抽出はPDF.jsを使用してブラウザ内でローカルに行われます。PDFがデバイスから出ることはなく、完全なプライバシーとセキュリティが保証されます。
パスワード保護されたPDFからテキストを抽出できますか?
はい、PDFがユーザーパスワード(所有者パスワードではなく)で保護されている場合は可能です。まず別のツールを使ってパスワードを削除してから、このツールでテキストを抽出する必要があります。
PDFからテキスト抽出器とは何か?
PDFからテキスト抽出器は、PDF文書から埋め込まれたテキストを取り出し、どこにでも貼り付けられる平易なUTF-8テキストにします。結果は文字だけです: フォントなし、色なし、レイアウトなし。これはOCR(光学文字認識)とは根本的に異なります。OCRは画像からピクセルを読み取り、それらがどの文字を表すかを推測します。抽出はPDFのコンテンツストリームから直接テキストを読むので、正確で即時です。OCRは近似的で遅いです。
抽出が機能する理由は、ほとんどのPDFがテキストを配置されたグリフ演算子(単一のテキスト文字列の場合はTj、調整付き配列の場合はTJ)としてページ上のx座標とy座標と共に保存するからです。抽出器は各ページのコンテンツストリームを歩き、すべてのグリフ演算子をその位置と共に収集し、読み取り順序を再組み立てします。直線的な散文の場合、これは本質的に完璧です。多列レイアウト、脚注、複雑な表については、抽出器は主に機能するがサプライズを生む可能性があるヒューリスティックに依存します。
このツールはMozillaが2011年に開始しFirefoxに同梱するJavaScript PDFレンダラーであるpdf.jsを使用します。すべてはブラウザで動作します: PDFファイルがメモリにロードされ、ローカルで解析され、テキストがマシンで抽出され、結果がコピーまたはダウンロードできるtextareaに表示されます。ファイルがサーバーにアップロードされることはありません。ライブラリはPDF 1.0からPDF 2.0(ISO 32000-2)とほとんどの最新の暗号化スキームを処理します。
ツールの中身
ツールの上部はドロップゾーンです: クリックしてPDFファイルを選ぶか、ファイルマネージャーからドラッグします。50 MBの上限は快適なブラウザメモリ制限です。pdf.jsはより大きなファイルを処理できますが、文書が数百ページを超えると抽出が遅くなります。ファイルがロードされるとすぐに、情報パネルがファイル名、ページ数、ファイルサイズを表示するので、正しい文書を選んだことを確認できます。
ファイル情報の下に2つの抽出オプションがあります。ページ番号を含めるは、各ページの番号が抽出されたテキストの前に付加されるかを切り替えます。ページセパレータでは、ページがどのように分けられるかを選べます: ラベル付きバー(--- ページ 3 ---)、空白行、明示的な[ページ区切り]マーカー、または何もなし。空白行オプションは書き込みツールへの再インポートに最適です。ラベル付きバーは長い文書のナビゲートに最適です。
テキストを抽出をクリックすると、ツールはすべてのページをループし、テキスト コンテンツを引き出し、セパレーター設定を適用し、結果を下のtextareaにダンプします。統計が下に表示されます: 処理されたページ、総文字数、総単語数。2つのボタンで結果をクリップボードにコピーするか、.txtファイルとしてダウンロードできます。出力は平易なUTF-8で、ノート、メール、スプレッドシート、またはコード エディターに貼り付ける準備ができています。
歴史と背景
PostScriptと印刷可能ページ問題(1982)
John WarnockとChuck GeschkeはXerox PARCを去り、1982年にAdobeを設立しました。最初の製品はPostScriptで、小さな描画演算子セット(移動、線、曲線、塗りつぶし、グリフ配置)を使用して任意の印刷可能ページを記述できるページ記述言語でした。PostScriptは任意のプリンターが任意のページを正確に再現することを許可しましたが、印刷用に設計されており、表示や編集用ではありませんでした。PostScriptは後にPDFが構築された技術的基盤です。
PDF 1.0とAcrobat(1993)
1991年、WarnockはCamelotと呼ばれるAdobeの内部論文を回覧しました。これはPostScriptから派生したがスクリーン表示とランダムページアクセス用に最適化された可搬性のあるドキュメントファイル形式を記述したものでした。最初の公開リリースは1993年6月15日のAcrobat 1.0とPDF 1.0でした。初期の採用は遅かったです: ビューアはお金がかかり、ファイルは大きかった。Adobeは1994年にAcrobat Readerを無料にし、形式は1990年代後半にフォーム、技術マニュアル、政府文書のために離陸しました。
長期アーカイブ用のPDF/A(2005)
PDF/Aは2005年10月にISO 19005-1として公開されました。アーカイブ用に設計されたPDFの制限されたサブセットです: 外部依存関係なし(すべてのフォントが埋め込まれている)、JavaScriptなし、暗号化なし、オーディオやビデオなし。要点は、50年後に開いたPDF/Aファイルが今日とまったく同じに見えることです。ほとんどの国立アーカイブ、裁判所、企業記録システムは長期保存のためにPDF/Aを要求します。PDF/Aからのテキスト抽出は、形式がToUnicodeフォントマップを義務付けるため、異常に信頼できます。
PDFがISO標準になる(2008)
Adobeは2008年にPDF仕様の制御を国際標準化機構に引き渡しました。ISO 32000-1:2008はPDF 1.7をオープン国際標準として体系化しました。この時点から、誰もがAdobeからPDFをライセンスすることなく完全に準拠したPDFリーダーを実装できるようになりました。ISO 32000-2は2017年(PDF 2.0)に続き、より優れたデジタル署名やHDRレンダリングのような新しい機能のネイティブ サポートを追加しました。
pdf.jsがブラウザ内PDFビューアを開く(2011)
Mozillaのアンドレアス・ガルは2011年中頃に実験的プロジェクトとしてpdf.jsを立ち上げ、HTML5、JavaScript、Canvasのみを使用してPDF文書をレンダリングしました。pdf.js以前は、ブラウザでPDFを表示するにはプラグイン(Adobe Reader プラグイン、Foxit、または類似のもの)が必要でした。pdf.jsはネイティブのブラウザベースのPDF表示を可能にしました。Mozillaは2013年2月にFirefox 19に同梱し、任意のPDFプラグインの必要性を取り除きました。これはこの抽出器が使用するライブラリです。
ChromeがPDFiumを出荷(2014)
Googleは2014年5月にPDFiumをオープンソース化しました。PDFiumは異なるPDFエンジンで、商用Foxit PDF SDKから派生したもので、ChromeとEdge内でPDFレンダリングを動かすものです。PDFiumはC++で書かれています。pdf.jsはJavaScriptで書かれています。抽出の観点からは、両方のエンジンは類似のテキストを生成しますが、PDF/Aサポートとフォームの取り扱いは異なります。このツールは、プラグインやコンパイル済みバイナリなしで任意のブラウザでネイティブに動作するため、pdf.jsを使用します。
実用的なワークフロー
研究論文から引用を抽出する
PDFをドロップし、抽出をクリックし、欲しい節を見つけるためにスクロールし、ノートまたは引用マネージャーにコピーします。単一カラムの論文はきれいに出てきます。2カラム論文(会議とジャーナル スタイルの典型)は、左と右のカラムからのテキストをインターリーブすることがあります。その場合、グローバル抽出に頼るのではなく、各カラムを手動でコピーしてください。長い引用には、段落の区切りが生き残るように空白行ページセパレーターを優先してください。
契約書で特定の条項を検索する
法的契約はしばしば数百ページあり、PDFリーダーの組み込み検索はコンテキストを見落とします。完全なテキストを抽出し、テキスト エディターに貼り付け、より広いコンテキスト ウィンドウ(前後5行)でFindまたはgrepを使用します。これはスクロールするより速く、責任または終了に言及するすべての条項のようなパターンの正規表現を書くことができます。PDF内の元の場所を見つけられるように、ラベル付きページセパレーターを保持してください。
ライティングまたは翻訳プロジェクトのバルク テキスト
長いPDF文書を翻訳、書き直し、または要約する必要があるとき、最初のステップは生のテキストを取り出すことです。一度抽出し、.txtファイルを保存し、そこから作業します。PDFリーダーから直接コピーすることは避けてください。これは、しばしば間違った場所に改行を導入し、ページ境界を越えて単語を破壊します。空白行セパレーターは翻訳ツールまたはLLMへの入力としてよく機能します。
領収書をスプレッドシートに取り込む
電子メールで送られる最新の領収書と請求書は、スキャンではなくテキストが埋め込まれたPDFであることが多いです。抽出し、その後正規表現で合計を解析します。繰り返される形式の場合(毎月同じ請求書レイアウトを送信する1つのベンダー)、5行のスクリプトは日付、合計、税金フィールドを自動的にスプレッドシートに引き出すことができます。スキャンされた領収書は機能しません。それらは最初にOCRが必要です。
間違ったデバイスで電子書籍を読む
PDFは電子書籍リーダーには貧しい形式です。なぜならページサイズが固定されており、テキストがリフローしないからです。テキストを抽出し、EPUBコンバーターに貼り付ければ、書籍は任意の画面でリフローします。ページ番号と脚注は変換前に手動で削除できます。このトリックは、出版社がPDFとしてのみリリースする技術書と会議議事録に最も役立ちます。
ミーティングの議事録を平易なテキストとして共有する
同僚がミーティングの議事録をPDFとして電子メールで送り、要約をSlackやwikiに貼り付けたい場合、最初に抽出します。テキストはきれいに出てきて、奇妙なフォントの不具合や隠された書式設定なしに任意の部分を貼り付けることができます。アクション項目を持つ議事録の場合、後で質問が出たときにオリジナルの文書セクションを見つけるのを助けるためにラベル付きバーページセパレーターが役立ちます。
よくある落とし穴
スキャンされたPDFは空の出力を生成します
PDFが紙の文書をスキャンして作成された場合(フラットベッド スキャン、電話写真、またはコピー機出力)、ページの画像が含まれ、根本的なテキストは含まれません。抽出器はテキスト演算子を探してコンテンツ ストリームを歩き、何も見つけないので、出力は空であるか、手動で入力された場合に逸れたページ番号のみが含まれます。修正は、最初にPDFをOCRで実行することです(Tesseract、Adobe AcrobatのRecognize Text、またはABBYY FineReaderのようなツール)。これは隠されたテキスト レイヤーを追加し、このツールがその後抽出できます。
多列レイアウトはテキストをインターリーブすることがあります
学術ジャーナル、雑誌、新聞は通常ページごとに2または3列を使用します。pdf.jsは各テキスト ランをページ上の位置で抽出し、読み取り順序を再構築するためにヒューリスティックを使用しますが、これらのヒューリスティックは単一カラム フローを前提としています。多列ページの結果は: 左カラムの最初の行、右カラムの最初の行、左カラムの2番目の行、というようになります。これらのレイアウトの場合、1ページずつ抽出し、目でカラムを選択するか、python pdfplumberライブラリのようなレイアウトを認識するツールを使用してください。
カスタム フォント エンコーディングは無意味な文字を生成します
PDFは任意のフォントを使用でき、フォントは作成者が選んだ任意の文字コードにグリフIDをマップできます。PDF/Aとほとんどの最新のPDFは、グリフ5が文字Aを意味すると述べるToUnicodeマップを含みますが、古いまたはずさんなPDFはマップをスキップすることがあります。ToUnicodeなしでは、抽出されたテキストは生のグリフIDです(しばしば四角、数字、またはランダムな文字として表示される)、そしてOCRなしで元の文字を回復する方法はありません。特定の単語だけが間違って見える場合、原因は通常、単一の埋め込みフォントの欠落したToUnicodeです。
リガチャは結合された文字として抽出される可能性があります
プロフェッショナルなタイポグラフィは、特定の文字ペア(fi、fl、ff、ffi)をリガチャと呼ばれる単一のグリフに結合します。PDFはリガチャを2文字のfとiではなく、Unicodeコードポイント U+FB01(fiリガチャ)として保存することがあります。抽出されたテキストはリガチャ コードポイントを含み、ほとんどのエディターは正しくレンダリングしますが、一部のテキスト処理ツールは詰まります。出力を検索インデックスや自然言語ツールに入力する場合、U+FB01をfiに、U+FB02をflに正規化するための1行の置換を実行してください。
ヘッダーとフッターはすべてのページで繰り返されます
ほとんどのPDFは、すべてのページに実行中のヘッダー(章のタイトル、文書のタイトル)とフッター(ページ番号、著作権行)を持っています。抽出器はそれらをページ上の本物のテキストとして拾い、200ページの文書で同じ行が200回繰り返されることになります。修正は、抽出後の単純な重複排除スクリプトまたは手動のFind-and-replace パスです。長い文書では、これが時々最大のクリーンアップ ステップです。
数学方程式と数式はめったにきれいに抽出されません
数学は特殊な記号フォント(Computer Modern、STIX)からの個々のグリフを使用して配置されます。抽出器はグリフを読みますが、xの二乗をxかける2と異なるものにする空間関係を失います。E=mc²のようなインライン方程式は文字化けし、表示方程式はスクランブルされた記号シーケンスとして出てきます。数学が多いPDFには、方程式の構造を保持するツール(MathPix snip、方程式リフロー付きAdobe Acrobat Pro)を使用するか、方程式を画像として抽出してください。
プライバシーとデータ処理
ツールにドロップするPDFファイルはずっとあなたのデバイスに留まります。pdf.jsはJavaScriptライブラリで、リモート サーバーではなくブラウザで動作します。ファイルはブラウザによってメモリにロードされ、ページごとに解析され、抽出されたテキストは同じページのtextareaに表示されます。ファイルをアップロードすることはなく、その内容をログに記録することはなく、それを分析することもありません。これは重要です。なぜならPDFはしばしば機密情報を含むからです: 契約書、医療記録、法的通信、財務諸表。
ページがロードされると、ツールはオフラインで動作します。インターネットから切断し、PDFをドロップし、抽出し、データが他のマシンに触れることなく結果をコピーできます。抽出されたテキストは、あなた自身がそれを貼り付けたりどこかに送信したりすることを選んだ場合にのみマシンを離れます。多くのSaaS PDF抽出器は、処理のためにファイルをクラウド サービスに送ります。機密文書の場合、これはまさに避けたいものです。
このツールを使用しない場合
スキャンされたまたは画像のみのPDF(最初にOCRが必要)
PDFが紙のスキャンまたは一連の写真である場合、抽出する埋め込みテキストはありません。このツールは空の結果を返します。テキスト レイヤーを追加するために、PDFを最初にOCRエンジンで実行してください: Tesseract(無料、コマンドライン、英語とラテン文字に非常に優れている)、Adobe Acrobat Pro(有料、最高のレイアウト保持)、またはABBYY FineReader(有料、非ラテン文字と複雑な文書に最適)。OCRの後、この抽出器は通常通り動作します。
フィールド値を持つ入力可能PDFフォーム
PDFフォームは、フィールド値(名前フィールドに入力したテキスト、チェックボックスのチェック状態)を静的ページ テキストとは別に保存します。この抽出器は静的ページ テキストのみを読むので、フォーム値は見逃されます。フォーム データを抽出するには、AcroFormまたはXFA辞書を直接読むPDFフォーム ライブラリ(pdftk、Adobe Acrobat Export Data、またはpython-pdfplumberのフォーム フィールドAPI)を使用してください。
書式設定を保持する必要があるとき
プレーン テキストはすべての書式設定を失います: 太字、斜体、リスト、表、見出し、色、フォント。レイアウトを保持する編集可能な文書が必要な場合は、代わりにPDF-to-Wordコンバーター(段落スタイルと表を持つ構造化されたWord文書を構築)、またはweb-friendly出力のためのPDF-to-HTMLを使用してください。PDF-to-textは、本当に単語だけが必要な場合のためです。
パスワードなしの暗号化されたPDF
PDFはユーザー パスワード(ファイルを開くために必要)またはオーナー パスワード(印刷やコピーのようなアクションを制限)で暗号化できます。pdf.jsは暗号化されたファイルを開くためにユーザー パスワードを必要とします。それなしでは、抽出はできません。最初にPDFアンロック ツールでパスワードを削除し(アクセスする権利を持つ文書のみ)、その後抽出してください。オーナー パスワードはAdobe Reader内でのコピーをブロックすることがありますが、ここでの抽出をブロックしません。
その他の質問
PDFテキストレイヤーとは何ですか?
テキスト レイヤーは、文字を機械可読テキストとして(コンテンツ ストリーム内のTjとTJ演算子)、ピクセルとしてではなく保存するPDFの部分です。Word、LaTeX、またはweb-to-PDFツールによって作成されたデジタルPDFは常にテキスト レイヤーを持ちます。スキャンされたPDFは、OCRで追加するまで持ちません。テキスト レイヤーは、検索、コピー&ペースト、スクリーン リーダー、およびこの抽出器のようなツールを機能させるものです。
なぜ抽出されたテキストの一部がスクランブルされているか、順序が乱れているのですか?
PDFはテキストを読み取り順序で保存しません。ページ上のx座標とy座標のグリフ演算子として保存します。抽出器は、行内で上から下へ、左から右へソートすることで読み取り順序を再構築します。これは単一カラム フローには機能しますが、カラムをインターリーブしたり、ヘッダーと本文を混在させたり、カラムの区切りで段落を分割したりすることがあります。複雑なレイアウトの場合は、ページごとにコピーするか、pdfplumberのようなレイアウトを認識するPythonライブラリを使用してみてください。
数百ページのPDFからテキストを抽出できますか?
はい、しかし時間がかかり、より多くのメモリを使用することを期待してください。各ページはJavaScriptで順次解析されます。これはシングル スレッドなので、500ページの本はマシンとページの複雑さに応じて20から60秒かかる可能性があります。ブラウザのメモリ天井(デスクトップChromeで数GB、モバイルでより少ない)は、ページ数よりも合計ファイル サイズを制限します。巨大なPDFがハングする場合、最初にPDFスプリッター ツールで分割し、チャンクで抽出してみてください。
PDF/Aとは何ですか、そしてなぜそのテキストは抽出しやすいのですか?
PDF/AはISO 19005で定義されたPDFのアーカイブ サブセットです。すべてのフォントがToUnicodeマップと共に埋め込まれること、すべてのカラー プロファイルが自己完結型であること、外部リソースが参照されないことを要求します。ToUnicode要件は抽出を信頼できるものにします: 文書内のすべてのグリフは標準Unicode文字に戻ってマッピングします。国立アーカイブ、裁判所、企業記録システムは、テキストが数十年後も抽出可能のままになるようにまさにPDF/Aを使用します。
Adobe Acrobatと比べて抽出はどれくらい正確ですか?
わかりやすいデジタルPDFの場合、出力は文字単位で同一です。Acrobatは複雑な多列レイアウトと表を処理するためのより洗練されたヒューリスティックを持つので、これらの特定のケースではその出力がより読みやすいかもしれません。pdf.js(このツール)は2011年から積極的に開発されており、現在ではPDF仕様の準拠テストのほとんどに合格しています。典型的なオフィスと研究文書では、違いは無視できます。
ツールは非ラテン文字(中国語、アラビア語、キリル文字)をサポートしますか?
はい、PDFがそれらの文字に適切なToUnicodeマップを持つ場合(最新のPDFはどれもそうです)。抽出されたテキストはUTF-8で、最新のエディターで正しく表示されます。アラビア語やヘブライ語のような右から左へのスクリプトは、視覚的順序ではなく論理的順序で抽出されます。これはさらなる処理に望むものです。CJK(中国語、日本語、韓国語)の抽出は完全にサポートされています。なぜならpdf.jsはPDFがそれらのスクリプトに使用するCIDFontシステムを処理するからです。