無料PDFかra Wordコンバーター

PDFファイルを編集可能なWord DOCX文書に即座に変換します。テキスト内容を抽出し、編集できる文書を作成します。

ファイルはお使いのデバイスから出ません

PDFファイルをここにドロップ またはクリックして参照

PDF対応 · 最大50 MB

PDFを変換中...

変換完了

Word文書のダウンロード準備ができました。

使い方

PDFをアップロード： Wordに変換するPDFファイルを1つドロップまたは選択します。
オプションを設定： フォント、改ページ、ページ番号の設定を選択します。
Wordに変換： 「Wordに変換」をクリックしてPDFを処理し、テキストを抽出します。
DOCXをダウンロード： 変換されたWord文書をダウンロードし、必要に応じて編集します。

なぜPDFをWordに変換するのか？

PDFファイルをWord文書に変換することで、簡単に変更、書式設定、再利用できる編集可能な形式が得られます。Word文書はPDFより柔軟で、コメントの追加、フォントの変更、コンテンツの再構成、あるいはテキストをより大きな文書に組み込むことができます。これは特に契約書、レポート、研究論文、そして編集またはカスタマイズが必要な文書に役立ちます。

機能

完全なテキスト抽出： PDFのすべてのページからすべてのテキスト内容を抽出します。
改ページ： PDFページ間に自動的に改ページを追加し、適切な文書構造を作成します。
フォント選択： 出力Word文書に好みのフォントを選択できます。
ページ番号： オプションでページ番号をコメントとして文書に含めることができます。
編集可能な出力： 生成されたDOCXファイルはWord、Google Docs、LibreOfficeその他のアプリケーションで完全に編集可能です。
統計情報： 抽出されたコンテンツのページ数、文字数、単語数を確認できます。
プライバシー： すべての処理はブラウザ内でローカルに行われます。ファイルがサーバーにアップロードされることはありません。
高速変換： 待ち時間や行列なしの即時処理。

よくある質問

これは元のPDFのレイアウトを維持しますか？

このツールはテキスト内容を抽出し、基本的なWord文書を作成します。元のPDFの複雑なレイアウト、列、画像、書式は完璧には維持されない場合があります。レイアウトが重要な文書の場合、変換後にWord文書を手動で調整することをお勧めします。

変換されたWord文書を編集できますか？

はい。出力DOCXファイルはMicrosoft Word、Google Docs、LibreOffice、その他の互換アプリケーションで完全に編集可能です。任意のテキストを追加、削除、変更でき、独自の書式を適用できます。

PDF内の画像やグラフィックはどうなりますか？

このツールはテキスト内容のみを抽出します。PDF内の画像、グラフィック、図は変換されたWord文書には含まれません。視覚的なコンテンツが多い文書の場合、画像を手動でWordファイルに追加する必要があるかもしれません。

スキャンされたPDFを変換できますか？

いいえ。このツールは選択可能なテキストを含むPDFで動作します。スキャンされたPDF（画像ベースのPDF）には抽出可能なテキストが含まれていないため、OCR（光学的文字認識）が必要です。スキャンされた文書からテキストを抽出するには、まずOCRツールをご使用ください。

ファイルサイズの制限はどのくらいですか？

最大50 MBのファイルに対応しています。より大きなファイルはブラウザの利用可能なメモリによっては動作しますが、変換速度が遅くなります。

パスワード保護されたPDFを変換できますか？

はい、PDFがユーザーパスワード（所有者パスワードではない）で保護されている場合は可能です。まず別のツールを使用してパスワードを削除してから、このツールで変換する必要があります。

PDFはサーバーに送信されますか?

いいえ。すべての変換はPDF.jsとdocxライブラリを使ってブラウザ内でローカルに行われます。PDFがデバイスを離れることは決してなく、プライバシーとセキュリティが保証されます。

モバイルデバイスで変換できますか？

はい。このツールはデスクトップ、タブレット、モバイルブラウザで動作します。タップしてPDFファイルを選択するだけで、お使いのデバイスで変換が処理されます。

PDFからWordへの変換ツールとは?

PDFからWordへの変換ツールはPDFファイルを取り、Word、Google Docs、LibreOffice、または任意のDOCX互換アプリケーションで編集できるように同じテキストコンテンツがレイアウトされたMicrosoft Word DOCXファイルを生成します。出力は新しい編集可能な文書です; 元のPDFはあなたのディスク上にそのまま残ります。WordファイルはパラグラフとフォーマットされたテキストのRunに構造化されており、これはPDFの位置付けされたグリフのフラットなストリームとは根本的に異なります。

PDFは1993年に最終形式ファイルとして設計され、編集ではなく忠実な表示と印刷のために最適化されました。Word文書はその逆です: 構造化され、編集可能で、リフローのために構築されています。したがって両者の間の変換は機械的な翻訳ではなく、元の意図を推測する問題です。変換ツールはPDFのコンテンツストリームを歩き、グリフを単語と行にグループ化し、段落の区切りとフォントランの再構築を試みます。直線的な散文ではこれはうまく機能します; テーブル、列、複雑なレイアウトでは再構築は定義上不完全です。

このツールはpdf.js (MozillaのJavaScript PDFレンダラー) を使って各ページを読み、docx.jsを使って出力Wordファイルを構築し、両方ともあなたのブラウザ内で完全に実行されます。アップロードするファイルはあなたのデバイスを離れません。出力DOCXはWord、Google Docs、Pages、LibreOffice、その他あらゆる現代のワードプロセッサで開けます。変換はテキストコンテンツと基本的な段落構造に焦点を当てます; テーブル、埋め込み画像、複雑な多列レイアウトは変換後に手動のクリーンアップが必要かもしれません。

ツールの中身

上部のドロップゾーンがあなたのPDFファイルを受け入れます。50 MBの制限は快適なブラウザメモリの上限です; pdf.jsはより大きなファイルを処理できますが、非常に長い文書の変換は著しく遅くなります。アップロード後、情報パネルがファイル名、ページ数、ファイルサイズを表示するので、正しい文書がキューに入っていることを確認できます。いじる追加オプションはありません; 変換はワンクリックです。

Wordに変換をクリックすると、ツールはPDFのすべてのページを歩き、pdf.jsを使ってテキストコンテンツを抽出し、段落ごとにテキストをグループ化し (段落区切りのヒューリスティックとして垂直スペースとフォント変更を使用) 、docx.jsを使ってWord文書を組み立てます。プログレスバーが処理されているページを表示します。典型的な10〜20ページの文書は数秒で変換されます; 200ページの文書はマシンによって1〜2分かかります。

変換が完了すると、ダウンロードボタンが表示されます。ダウンロードされたDOCXファイルはあなたのデフォルトのダウンロードフォルダに移動し、Microsoft Word、Google Docs (ドラッグまたはアップロード) 、LibreOffice Writer、Apple Pages、その他あらゆるDOCX互換エディタで直接開かれます。出力Word文書のファイルサイズは典型的には元のPDFより小さいです。なぜならWord形式はテキスト中心のコンテンツに対してよりコンパクトだからです。

歴史と背景

PDFとWord、対照的なデザイン哲学 (1983 vs 1993)

Microsoft WordはMS-DOS用に1983年に、Macintosh用に1985年にリリースされ、.docバイナリ形式がオフィス編集の標準になりました。PDF (Acrobat 1.0) は10年後の1993年に対照的なデザイン目標で出荷されました: 編集形式ではなく、ポータブルな読み取り専用の最終形式。Word文書はあなたが入力するにつれて流れて再フォーマットします; PDFは位置付けされたグリフの凍結されたページです。PDFを印刷に優れたものにする同じデザイン選択が、それらを編集に敵対的にし、それがPDF-to-Word変換を本質的に有損な問題にする理由です。

Acrobat 6がSave As Wordを出荷 (2003)

Adobe Acrobat 6 (2003年5月リリース) は、PDF-to-Word変換を組み込みで提供する最初の広く使用されたツールでした。Acrobat ProfessionalのSave As Word Document機能は、抽出可能なテキストを持つ任意のPDFから.docファイルを生成できました。変換は不完全でした (Acrobat自体がレイアウト再構築について長い免責事項を公開していました) が、PDFがワンクリックでWord文書になれるというユーザー期待を確立しました。後のバージョンは品質を改善し、特にAcrobat 9 (2008) でのテーブル再構築でした。

Solid Documentsと専門変換ツール (2007)

Solid Documentsは2007年にSolid PDF to Wordをリリースし、特に複雑なテーブルと多列レイアウトを持つ文書に対するデスクトップPDF-to-Word変換のゴールドスタンダードとして急速に確立しました。同社はFoxitとNitro PDFを含む他のベンダーに変換エンジンをライセンスしました。専門変換ツールはレイアウト認識ヒューリスティックを使用しました: テーブル境界の検出、列フローの認識、フォントランを文字フォーマットとして保持。お金がかかりましたが、レイアウト再構築が重要な文書ではAcrobatや一般的なWeb変換ツールよりも著しく良い出力を生成しました。

Microsoft WordがPDFを直接開く (2013)

Word 2013 (2013年1月リリース) は、File > OpenでPDFを直接開く機能を追加しました。Wordは内部的なPDF-to-Word変換 (MicrosoftはこれをPDF Reflowと呼んでいます) を実行し、結果を編集可能な文書として提示しました。これは主要なユーザビリティの改善でした: 別の変換ツールは不要。品質は他のすべての変換ツールと同じく、文書によって異なります。テキスト中心のPDFでは結果は通常良好です; デザイン中心のPDFでは、Wordは再構築が元と一致しない可能性があることをユーザーに警告します。

Web変換ツールとSaaSの波 (2013年以降)

Smallpdf (2013) 、iLovePDF (2014) 、PDF24 (より古いが拡張されたWebサービス) はブラウザベースのPDF-to-Wordを無料でアクセス可能にしました。彼らのモデルは処理のためにベンダーのサーバーにPDFをアップロードすることを必要としたため、機密文書のプライバシー懸念を引き起こしました。利便性は巨大な採用を推進しました: 2020年までにこれらのサービスは集合的に年間数十億の変換を処理していました。トレードオフ (利便性のためのプライバシー) はまさにこのようなクライアントサイドのブラウザツールが対処することです。

クライアントサイド変換が実用化 (2019年以降)

pdf.jsとdocx.jsが成熟するにつれて、ブラウザでの完全にクライアントサイドのPDF-to-Word変換が実用的になりました。ユーザーは何もアップロードしません; 変換はユーザーのマシン上でJavaScriptで行われます。これはこのツールが従う道です。出力品質はテキスト中心の文書では典型的なWeb変換ツールと一致します; レイアウト中心の文書ではデスクトップ専門家 (Solid PDF to Word、Acrobat Pro) はまだいくらか良い再構築を生成しますが、機密文書のプライバシートレードオフはブラウザベースの変換に有利です。

実用的なワークフロー

ソースを持っていないPDFを編集する

ベンダーがWord ソースなしでサービス契約をPDFとしてあなたに送ります。あなたの法務チームがレビューするために変更を追跡する必要があります。Wordに変換し、Wordや Google Docsの変更履歴で編集し、ベンダーに返送します。再構築は素早いレイアウトクリーンアップを必要とするかもしれませんが、テキストは編集可能で、同僚は使い慣れたレビューツールを使用できます。これはPDFをWordに変換する単一の最も一般的な理由です。

古いPDFを編集可能アーカイブに移行する

多くの組織は、Wordソースが失われたり削除されたりした過去数十年からの何千ものPDFを持っています。文書が更新を必要とするとき (新しいポリシー、新しい会計年度、新しいブランディング) 、Wordに戻す変換が最初のステップです。出力はめったにピクセルパーフェクトではありませんが、再構築する編集可能なテキストを与えます。再公開される文書のWordでの手動レイアウトクリーンアップとペアにしてください。

PDFを別の言語に翻訳する

翻訳ツール (Google Translate Documents、DeepL、SDL Tradosのようなプロフェッショナル翻訳メモリツール) は、PDFよりもWord文書ではるかによく動作します。最初にWordに変換し、次に翻訳を実行し、翻訳がレビューされた後にオプションでPDFに再エクスポートします。Word形式は翻訳者が変更を追跡してコメントを追加することも可能にし、これはあらゆるレビューサイクルにとって重要です。

新しい文書のためにコンテンツを抽出して再フォーマットする

新しいプレゼンテーションやメモでPDFレポートのセクションを使いたいと考えています。Wordに変換し、関連する段落 (今や適切に編集可能なテキスト) をコピーし、新しい文書に貼り付け、ターゲットスタイルで再フォーマットします。これは、しばしば壊れた改行と失われたフォーマットを導入するPDFリーダーから直接コピーするよりも速いです。

公開されたフォームやテンプレートを更新する

古いPDFフォーム (受付フォーム、経費報告テンプレート、申請フォーム) には新しいフィールド、更新されたブランディング、または修正された言葉遣いが必要です。Wordに変換し、適切なフォームフィールド (Wordの開発者タブ、またはGoogle Forms同等品を使用) でWordで編集し、PDFとして再エクスポートするかWordとして配布します。これは単純なフォームに最適です; 計算を伴う複雑なAcroFormsはPDFフォームエディタで編集する必要があります。

PDFテーブルからデータを抽出する

財務報告書には分析に必要なテーブルが含まれています。PDFをWordに変換し、テーブルをExcelにコピーし、変換中に壊れたセルをクリーンアップします。テーブルではこれは通常、完成された結果ではなく出発点です; 複雑なテーブルは手動のクリーンアップが必要です。純粋なデータ抽出 (フォーマットを保持する必要がない) には、PythonのpdfplumberまたはtableをWord経由で行うよりもクリーンな結果を与えることがよくあります。

よくある落とし穴

テーブルがしばしば別々のテキストボックスに分解される

PDFテーブルは特定のx/y位置のテキストフラグメントのグリッドとしてレンダリングされます; ほとんどのPDFには基礎となるテーブル構造はありません。変換ツールはテーブル境界がどこにあるかを推測する必要があり、それは聞こえるよりも難しいです。ほとんどの変換ツールはテーブルを適切なWordテーブルとしてではなく、タブ付きのテキストボックスや段落ランのシリーズとして生成します。修正は変換後に手動でWordでテーブルを再作成するか、値だけが必要な場合はExcelを使ってデータをクリーンアップすることです。

多列レイアウトが乱雑になる

学術論文、雑誌、新聞は通常、ページあたり2列または3列を使用します。変換ツールはx/y位置によってグリフのストリームとして各列を見て、左と右の列を単一の段落フローに交互に挿入する可能性があります。結果は次のように読まれます: 左列の最初の行、右列の最初の行、左列の2行目、など。多列PDFの場合、代わりに手動で列ごとにコピーするか、列境界を尊重するpdfplumberのようなレイアウト認識のPythonライブラリを使用してください。

フォントが置換される

PDFは特定のフォント (時には曖昧またはカスタム) を特定のポイントサイズで埋め込みます。Wordはあなたのシステムで利用可能な最も近いフォントでそれらを置換します。結果は異なるタイポグラフィの同じコンテンツであり、慎重に設計された文書を壊す可能性があります。出力文書がPDFと視覚的に一致する必要がある場合は、変換後にWordで意図したフォントを手動で再適用してください (または埋め込みフォントを明示的に保持する変換ツールを使用してください) 。

フォームフィールドが翻訳されない

PDFインタラクティブフォーム (AcroFormsまたはXFAフォーム) は、静的ページコンテンツとは別にフィールド値を保存します。変換ツールは静的ページテキストのみを見るので、フォーム値は変換で失われます。記入されたPDFフォームを変換して値を保持する必要がある場合、まずフォーム認識ツール (pdftk、Adobe Acrobat Export Data、Python pdfplumberのフォームフィールドAPI) で抽出し、次にWord文書に手動でマージします。

数式が乱雑に出力される

数学は特別なシンボルフォント (Computer Modern、STIX) からの個々のグリフを使って配置されます。変換ツールはグリフを読み取りますが、xの2乗をx掛ける2と異なるものにする空間関係を失います。インライン方程式は乱雑なシンボルシーケンスとして出力されます; ディスプレイ方程式は切断された文字のランとして。数学中心のPDFの場合、専門的な数学認識ツール (MathPix snip) を使うか、Word文書への視覚的な含めるために方程式を画像として抽出してください。

スキャンされたPDFは空のWord文書を生成する

PDFがスキャンから作成された場合、抽出可能なテキストではなくページの画像が含まれています。変換ツールはコンテンツストリームを歩き、テキスト演算子を見つけず、空またはほぼ空のWord文書を生成します。最初にスキャンをOCR (Tesseract、Adobe Acrobat Recognize Text、ABBYY FineReader) を通してテキスト層を追加し、次に変換してください。ソースが純粋にスキャンで編集可能な結果が必要な場合、OCRは後でどの変換ツールを使用するかに関係なく避けられない最初のステップです。

プライバシーとデータ処理

アップロードするPDFは変換中ずっとあなたのデバイスに留まります。pdf.jsがそれをブラウザメモリに読み込み、docx.jsが出力Wordファイルを組み立て、結果はあなたのディスクに直接ダウンロードされ、すべてあなたのマシンで実行されているJavaScriptで行われます。アップロードステップ、リモート処理、あなたが何の文書を変換したかについてのテレメトリはありません。これは重要です。なぜなら、あなたがプライベートに変換したい文書 (契約書、医療記録、法的通信、財務諸表) はまさに第三者クラウド変換ツールに決して送るべきではない文書だからです。

ページが読み込まれたら、ツールはオフラインで動作します。インターネットから切断し、PDFをドロップし、変換を実行し、データが他のマシンに触れることなくWord文書をダウンロードできます。クラウドベースの変換ツール (Smallpdf、iLovePDF、Adobe Document Cloud) は処理前にPDFのアップロードを必要とします; 機密文書ではそれが避けるべき失敗モードです。

このツールを使用しないとき

テキストだけが必要なとき (PDFからテキストを使う)

目標が検索、インデックス作成、他の場所への貼り付け、または別のツールへの供給のためにテキストを抽出することだけなら、代わりにPDF to Textツールを使用してください。よりシンプルで、より高速で、必要のないWord文書構造を構築するオーバーヘッドを避けます。PDF to Wordは編集可能な文書が欲しいとき; PDF to Textは生のテキストが欲しいとき用です。

複雑なテーブルやデータ抽出には (専門ツールを使う)

主に複雑なテーブル (財務報告、科学データテーブル、部品カタログ) の文書には、一般的なPDF to Word変換ツールは雑然とした出力を生成します。専門ツールを使用してください: pdfplumber (Pythonライブラリ、無料) 、tabula-py (Python、無料) 、またはAdobe Acrobat Proのテーブル抽出機能 (有料) 。一回限りのテーブル抽出には、Camelot (Python) とExcalibur (Camelot用Web UI) もオプションです。Word文書はテーブルを保存しますが、それらへの変換はめったにテーブル忠実ではありません。

スキャンされたPDFには (最初にOCRを実行)

PDFが紙のスキャンや写真のシリーズの場合、変換する抽出可能なテキストはありません。このツールが生成するWord文書は空になります。最初にPDFをOCRを通してください: Tesseract (無料のコマンドライン、英語とラテン文字に優れている) 、Adobe Acrobat Pro Recognize Text (有料、最高のレイアウト保持) 、またはABBYY FineReader (有料、非ラテン文字と複雑な文書に最適) 。OCRがテキスト層を追加した後、この変換ツールは正常に動作します。

ピクセル単位のレイアウトが編集可能性より重要なとき

文書の正確な視覚的レイアウトが編集可能であることよりも重要な場合 (法的展示物、認証された文書、技術図面) 、Wordに変換しないでください。変換は必然的にテキストを再フローし、フォントを置換し、元と正確に一致しなくなった文書を生成します。PDFを権威あるバージョンとして保持し、本当に編集が必要なセクションのみを変換してください。

その他の質問

変換されたWord文書が元のPDFと異なるのはなぜですか?

PDFは段落構造ではなく、位置付けされたグリフを保存します。変換ツールは段落がどこで終わり、列がどこで流れ、テーブルがどこで始まり、どのフォントがどれかを推測する必要があります。これらの推測は直線的な散文ではほとんどの場合正しいですが、複雑なレイアウトではだんだん悪くなります。変換がほぼ完璧である必要がある文書には、レイアウト認識変換 (Acrobat Pro、Solid PDF to Word、ABBYY FineReader) を備えたデスクトップツールを使用し、後でいくつかの手動クリーンアップを行うことを期待してください。

PDFの画像はWord文書に表示されますか?

このブラウザベースの変換ツールはテキストと基本的な構造に焦点を当てています; 埋め込まれた画像はPDFの複雑さに応じて変換を生き残ることもあれば、そうでないこともあります。画像が重要なPDF (フォトブック、プレゼンテーション、図解されたレポート) の場合、ビューアでPDFを開き、画像を別々に抽出し、Word文書に手動で挿入してください。このサイトのPDF Extract Imagesツールは、この目的のためにPDFから各画像を引き出します。

変換は逆方向、WordからPDFに行くことができますか?

はい、ただしその方向には専用のWord to PDFツールを使用してください。Word to PDFは簡単な方向です: WordはすでにPDFにきれいにマップする明確に定義された構造を持っています。すべてのワードプロセッサ (Word、Google Docs、LibreOffice、Pages) には組み込みのExport to PDFがあります。難しい方向はPDF to Wordです。なぜならPDFにはWordが依存する構造情報がないからです。Microsoft Word自体もPDFを開くことができます (Word 2013以降ではFile > Open) 。このツールが行うのと同じ種類のリバースエンジニアリングを使用します。

ツールは非ラテン文字 (中国語、アラビア語、キリル文字) をサポートしますか?

はい、ソースPDFがそれらの文字に対する適切なToUnicodeフォントマップを持っている限り (現代のPDFはすべて持っています) 。抽出されたテキストはUnicodeで、Word文書に正しく表示されます。アラビア語とヘブライ語のような右から左への文字は論理的順序で生成されます; 適切な表示のためにWordで右から左への段落フォーマットを適用する必要があるかもしれません。CJK (中国語、日本語、韓国語) は完全にサポートされています。

DOCとDOCXの違いは何ですか?

DOCは古いMicrosoft Wordバイナリ形式 (Word 97から2003) です。DOCXはWord 2007で導入された新しいXMLベースの形式で、2008年にISO/IEC 29500 (Office Open XML) として標準化されました。DOCXは本質的にXMLファイルのZIPアーカイブで、それを開いていて解析可能で、すべての現代のワードプロセッサで十分にサポートされています。このツールはDOCXを生成します。非常に古いWordバージョンとの互換性のために特にDOCが必要な場合、変換後にWord内からDOCXをDOCとして保存してください。

これはWordで直接PDFを開くのとどう比較されますか?

Microsoft Word 2013以降はFile > Openを使ってPDFを直接開くことができます。Microsoftの組み込み変換の品質は一般的にテキスト中心の文書ではWeb変換ツールと同等で、レイアウト中心の文書ではわずかに良いです (MicrosoftはPDF Reflowに大きく投資しました) 。このブラウザツールの利点はプライバシーです: 何もアップロードされず、変換はWordがインストールされていない可能性のあるデバイス (Linux、Chromebook、モバイル) で実行されます。あなたのワークフローに合うものを使用してください。