Bộ chuyển đổi PDF sang văn bản miễn phí

Trích xuất tất cả nội dung văn bản từ các tệp PDF ngay lập tức. Tải xuống dưới dạng TXT hoặc sao chép vào clipboard. Tệp của bạn không bao giờ rời khỏi thiết bị.

Tệp của bạn không bao giờ rời khỏi thiết bị
Thả tệp PDF vào đây hoặc nhấp để duyệt

Hỗ trợ PDF · tối đa 50 MB

Thống kê trích xuất
0 Trang
0 Ký tự
0 Từ

Cách hoạt động

  1. Tải lên PDF: Thả hoặc chọn một tệp PDF để trích xuất văn bản.
  2. Cấu hình tùy chọn: Chọn kiểu dấu phân cách trang và liệu có bao gồm số trang hay không.
  3. Trích xuất văn bản: Nhấp "Trích xuất văn bản" để xử lý PDF và hiển thị nội dung.
  4. Tải xuống hoặc sao chép: Sao chép văn bản trích xuất vào clipboard hoặc tải xuống dưới dạng tệp TXT.

Tại sao trích xuất văn bản PDF?

Việc chuyển đổi văn bản PDF thành văn bản thuần rất hữu ích cho việc xử lý nội dung tài liệu, tìm kiếm trong PDF, nhập dữ liệu vào các ứng dụng khác, tạo bản sao lưu nội dung văn bản hoặc phân tích văn bản tài liệu. Công cụ này trích xuất tất cả văn bản trong khi vẫn giữ thứ tự đọc, làm cho nó hoàn hảo cho báo cáo, bài nghiên cứu, hợp đồng và các tài liệu nhiều văn bản khác.

Tính năng

Câu hỏi thường gặp

Tôi có thể trích xuất văn bản từ PDF đã quét không?

Công cụ này trích xuất văn bản từ PDF có chứa văn bản có thể chọn. PDF đã quét (dựa trên hình ảnh) không chứa văn bản có thể trích xuất và sẽ yêu cầu OCR (Nhận dạng Ký tự Quang học), mà công cụ này không cung cấp. Đối với tài liệu đã quét, hãy sử dụng công cụ OCR trước.

Giới hạn kích thước tệp là bao nhiêu?

Hỗ trợ tệp lên đến 50 MB. Các tệp lớn hơn có thể hoạt động tùy thuộc vào bộ nhớ khả dụng của trình duyệt, nhưng việc trích xuất sẽ chậm hơn.

Công cụ có giữ nguyên định dạng không?

Văn bản trích xuất là văn bản thuần, do đó định dạng như in đậm, in nghiêng và màu sắc không được giữ lại. Tuy nhiên, nội dung và thứ tự văn bản được duy trì chính xác nhất có thể.

Tôi có thể trích xuất văn bản trên thiết bị di động không?

Có. Công cụ này hoạt động trên trình duyệt máy tính để bàn, máy tính bảng và điện thoại di động. Chỉ cần chạm để chọn tệp PDF và trích xuất văn bản.

PDF của tôi có được tải lên máy chủ không?

Không. Toàn bộ việc trích xuất văn bản diễn ra cục bộ trong trình duyệt của bạn bằng PDF.js. PDF của bạn không bao giờ rời khỏi thiết bị, đảm bảo quyền riêng tư và bảo mật hoàn toàn.

Tôi có thể trích xuất văn bản từ PDF được bảo vệ bằng mật khẩu không?

Có, nếu PDF được bảo vệ bằng mật khẩu người dùng (không phải mật khẩu chủ sở hữu). Bạn cần gỡ bỏ mật khẩu trước bằng một công cụ khác, sau đó trích xuất văn bản với công cụ này.

Trình trích xuất văn bản PDF là gì?

Một trình trích xuất văn bản PDF kéo văn bản nhúng từ tài liệu PDF vào văn bản UTF-8 thuần túy mà bạn có thể dán vào bất cứ đâu. Kết quả chỉ là các ký tự: không phông chữ, không màu sắc, không bố cục. Điều này về cơ bản khác với OCR (Nhận dạng Ký tự Quang học), đọc các pixel từ một hình ảnh và đoán những chữ cái mà chúng đại diện. Việc trích xuất đọc văn bản trực tiếp từ luồng nội dung của PDF, vì vậy nó chính xác và tức thì; OCR là gần đúng và chậm.

Lý do việc trích xuất hoạt động là vì hầu hết các PDF lưu trữ văn bản dưới dạng các toán tử glyph có vị trí (Tj cho các chuỗi văn bản đơn, TJ cho các mảng có điều chỉnh) cùng với tọa độ x và y trên trang. Trình trích xuất đi qua luồng nội dung của mỗi trang, thu thập mọi toán tử glyph với vị trí của nó, và lắp ráp lại thứ tự đọc. Đối với văn xuôi thẳng, điều này về cơ bản là hoàn hảo. Đối với bố cục nhiều cột, chú thích và các bảng phức tạp, trình trích xuất dựa vào các heuristic phần lớn hoạt động nhưng có thể tạo ra những bất ngờ.

Công cụ này sử dụng pdf.js, trình kết xuất PDF JavaScript mà Mozilla bắt đầu vào năm 2011 và phát hành với Firefox. Mọi thứ chạy trong trình duyệt của bạn: tệp PDF được tải vào bộ nhớ, được phân tích cú pháp cục bộ, văn bản được trích xuất trên máy của bạn, và kết quả xuất hiện trong một textarea mà bạn có thể sao chép hoặc tải xuống. Không có tệp nào được tải lên máy chủ. Thư viện xử lý PDF 1.0 đến PDF 2.0 (ISO 32000-2) và hầu hết các sơ đồ mã hóa hiện đại.

Bên trong công cụ có gì

Phía trên của công cụ là một vùng thả: nhấp để chọn một tệp PDF hoặc kéo một tệp từ trình quản lý tệp của bạn. Giới hạn 50 MB là một giới hạn bộ nhớ trình duyệt thoải mái; pdf.js có thể xử lý các tệp lớn hơn nhưng việc trích xuất chậm lại khi tài liệu vượt quá vài trăm trang. Ngay khi một tệp được tải, một bảng thông tin hiển thị tên tệp, số trang và kích thước tệp để bạn có thể xác nhận bạn đã chọn đúng tài liệu.

Hai tùy chọn trích xuất nằm bên dưới thông tin tệp. Bao gồm số trang chuyển đổi xem số của mỗi trang có được thêm vào trước văn bản được trích xuất hay không. Dấu phân cách trang cho phép bạn chọn cách các trang được chia: một thanh có nhãn (--- Trang 3 ---), một dòng trống, một dấu [NGẮT TRANG] rõ ràng, hoặc không có gì cả. Tùy chọn dòng trống tốt nhất để nhập lại vào một công cụ viết; thanh có nhãn tốt nhất để điều hướng các tài liệu dài.

Nhấp vào Trích xuất Văn bản và công cụ lặp qua mọi trang, kéo nội dung văn bản, áp dụng cài đặt dấu phân cách của bạn, và đổ kết quả vào textarea bên dưới. Thống kê xuất hiện bên dưới: trang được xử lý, tổng số ký tự, tổng số từ. Hai nút cho phép bạn sao chép kết quả vào clipboard hoặc tải xuống dưới dạng tệp .txt. Đầu ra là UTF-8 thuần túy, sẵn sàng để dán vào một ghi chú, email, bảng tính, hoặc trình chỉnh sửa mã.

Lịch sử và bối cảnh

PostScript và vấn đề trang có thể in (1982)

John Warnock và Chuck Geschke rời Xerox PARC và thành lập Adobe vào năm 1982. Sản phẩm đầu tiên của họ là PostScript, một ngôn ngữ mô tả trang có thể mô tả bất kỳ trang nào có thể in được bằng một tập nhỏ các toán tử vẽ: di chuyển, đường thẳng, đường cong, lấp đầy, đặt glyph. PostScript cho phép bất kỳ máy in nào tái tạo bất kỳ trang nào chính xác, nhưng nó được thiết kế để in, không phải để xem hoặc chỉnh sửa. PostScript là nền tảng kỹ thuật mà PDF sau này được xây dựng trên.

PDF 1.0 và Acrobat (1993)

Năm 1991, Warnock đã lưu hành một bài báo nội bộ của Adobe có tên là Camelot mô tả một định dạng tệp tài liệu di động có nguồn gốc từ PostScript nhưng được tối ưu hóa cho việc xem trên màn hình và truy cập trang ngẫu nhiên. Bản phát hành công khai đầu tiên là Acrobat 1.0 và PDF 1.0 vào ngày 15 tháng 6 năm 1993. Việc áp dụng ban đầu chậm: các trình xem có giá và các tệp lớn. Adobe đã cho miễn phí Acrobat Reader vào năm 1994 và định dạng cất cánh qua cuối những năm 1990 cho các biểu mẫu, sách hướng dẫn kỹ thuật, và tài liệu chính phủ.

PDF/A cho các kho lưu trữ dài hạn (2005)

PDF/A được xuất bản dưới dạng ISO 19005-1 vào tháng 10 năm 2005. Đó là một tập con bị hạn chế của PDF được thiết kế để lưu trữ: không có sự phụ thuộc bên ngoài (tất cả các phông chữ được nhúng), không có JavaScript, không có mã hóa, không có âm thanh hoặc video. Điểm là một tệp PDF/A được mở trong 50 năm sẽ trông y hệt như hôm nay. Hầu hết các kho lưu trữ quốc gia, tòa án và hệ thống hồ sơ doanh nghiệp đều yêu cầu PDF/A để lưu trữ dài hạn. Việc trích xuất văn bản từ PDF/A là đáng tin cậy bất thường vì định dạng bắt buộc bản đồ phông chữ ToUnicode.

PDF trở thành tiêu chuẩn ISO (2008)

Adobe đã giao quyền kiểm soát đặc tả PDF cho Tổ chức Tiêu chuẩn hóa Quốc tế vào năm 2008. ISO 32000-1:2008 đã hệ thống hóa PDF 1.7 thành một tiêu chuẩn quốc tế mở. Từ thời điểm này trở đi, bất cứ ai cũng có thể triển khai một trình đọc PDF tuân thủ đầy đủ mà không cần cấp phép PDF từ Adobe. ISO 32000-2 theo sau vào năm 2017 (PDF 2.0), thêm hỗ trợ gốc cho các tính năng mới hơn như chữ ký số tốt hơn và kết xuất HDR.

pdf.js mở trình xem PDF trong trình duyệt (2011)

Andreas Gal tại Mozilla đã khởi chạy pdf.js như một dự án thử nghiệm vào giữa năm 2011 để kết xuất tài liệu PDF chỉ bằng cách sử dụng HTML5, JavaScript và Canvas. Trước pdf.js, việc xem PDF trong trình duyệt yêu cầu một plugin (plugin Adobe Reader, Foxit, hoặc tương tự). pdf.js đã làm cho việc xem PDF dựa trên trình duyệt gốc trở nên khả thi. Mozilla đã đóng gói nó vào Firefox 19 vào tháng 2 năm 2013, loại bỏ nhu cầu về bất kỳ plugin PDF nào. Đó là thư viện mà trình trích xuất này sử dụng.

Chrome vận chuyển PDFium (2014)

Google đã mã nguồn mở PDFium vào tháng 5 năm 2014. PDFium là một công cụ PDF khác, có nguồn gốc từ Foxit PDF SDK thương mại, và là thứ cung cấp năng lượng cho việc kết xuất PDF bên trong Chrome và Edge. PDFium được viết bằng C++; pdf.js được viết bằng JavaScript. Từ quan điểm trích xuất, cả hai công cụ tạo ra văn bản tương tự, nhưng hỗ trợ PDF/A và xử lý biểu mẫu khác nhau. Công cụ này sử dụng pdf.js vì nó chạy gốc trong bất kỳ trình duyệt nào mà không cần plugin hoặc các tệp nhị phân đã biên dịch.

Quy trình thực tế

Trích xuất các trích dẫn từ một bài báo nghiên cứu

Thả PDF vào, nhấp Trích xuất, cuộn để tìm đoạn văn bạn muốn, và sao chép nó vào ghi chú hoặc trình quản lý trích dẫn của bạn. Các bài báo một cột xuất ra một cách sạch sẽ. Các bài báo hai cột (điển hình của phong cách hội nghị và tạp chí) có thể đan xen văn bản từ các cột trái và phải; trong trường hợp đó, hãy sao chép từng cột một cách thủ công thay vì dựa vào việc trích xuất toàn cầu. Đối với các trích dẫn dài, ưu tiên dấu phân cách trang dòng trống để ngắt đoạn tồn tại.

Tìm kiếm các điều khoản cụ thể trong một hợp đồng

Các hợp đồng pháp lý thường có hàng trăm trang và tìm kiếm tích hợp của trình đọc PDF bỏ lỡ ngữ cảnh. Trích xuất văn bản đầy đủ, dán vào trình chỉnh sửa văn bản, và sử dụng Find hoặc grep với cửa sổ ngữ cảnh rộng hơn (5 dòng trước và sau). Điều này nhanh hơn so với việc cuộn và cho phép bạn viết một biểu thức chính quy cho các mẫu như tất cả các điều khoản đề cập đến trách nhiệm hoặc chấm dứt. Giữ dấu phân cách trang có nhãn để bạn có thể tìm vị trí gốc trong PDF.

Văn bản hàng loạt cho một dự án viết hoặc dịch thuật

Khi bạn cần dịch, viết lại hoặc tóm tắt một tài liệu PDF dài, bước đầu tiên là lấy văn bản thô ra. Trích xuất một lần, lưu tệp .txt, và làm việc từ đó. Tránh sao chép trực tiếp từ trình đọc PDF, thường giới thiệu các ngắt dòng ở những nơi sai và phá vỡ các từ qua ranh giới trang. Dấu phân cách dòng trống hoạt động tốt như đầu vào cho một công cụ dịch thuật hoặc một LLM.

Kéo các biên lai vào bảng tính

Các biên lai và hóa đơn hiện đại được gửi qua email thường là PDF với văn bản nhúng thay vì các bản quét. Trích xuất, sau đó phân tích cú pháp các tổng số với một biểu thức chính quy. Đối với các định dạng lặp lại (một nhà cung cấp gửi cùng một bố cục hóa đơn mỗi tháng), một tập lệnh năm dòng có thể kéo các trường ngày, tổng và thuế vào bảng tính một cách tự động. Các biên lai được quét sẽ không hoạt động; những thứ đó cần OCR trước.

Đọc ebook trên thiết bị sai

PDF là một định dạng kém cho các máy đọc sách điện tử vì kích thước trang cố định; văn bản không chảy lại. Trích xuất văn bản, dán vào trình chuyển đổi EPUB, và bây giờ cuốn sách chảy lại trên bất kỳ màn hình nào. Số trang và chú thích có thể được loại bỏ thủ công trước khi chuyển đổi. Mẹo này hữu ích nhất cho các sách kỹ thuật và kỷ yếu hội nghị mà các nhà xuất bản chỉ phát hành dưới dạng PDF.

Chia sẻ biên bản cuộc họp dưới dạng văn bản thuần túy

Khi một đồng nghiệp gửi email biên bản cuộc họp dưới dạng PDF và bạn muốn dán một bản tóm tắt vào Slack hoặc wiki, hãy trích xuất trước. Văn bản xuất ra sạch sẽ và bạn có thể dán bất kỳ phần nào mà không có các tạo phẩm phông chữ kỳ lạ hoặc định dạng ẩn. Đối với các biên bản có các mục hành động, dấu phân cách thanh có nhãn giúp tìm phần tài liệu gốc nếu các câu hỏi xuất hiện sau này.

Các cạm bẫy phổ biến

Các PDF được quét tạo ra đầu ra trống

Nếu một PDF được tạo bằng cách quét một tài liệu giấy (quét máy quét phẳng, ảnh điện thoại, hoặc đầu ra máy photocopy), nó chứa một hình ảnh của trang, không phải văn bản cơ bản. Trình trích xuất đi qua luồng nội dung tìm kiếm các toán tử văn bản và không tìm thấy gì, vì vậy đầu ra trống hoặc chỉ chứa các số trang lạc lõng nếu chúng được nhập thủ công. Cách khắc phục là chạy PDF qua OCR trước (các công cụ như Tesseract, Recognize Text của Adobe Acrobat, hoặc ABBYY FineReader), thêm một lớp văn bản ẩn mà công cụ này sau đó có thể trích xuất.

Các bố cục nhiều cột có thể đan xen văn bản

Các tạp chí học thuật, tạp chí và báo chí thường sử dụng hai hoặc ba cột mỗi trang. pdf.js trích xuất mỗi lần chạy văn bản theo vị trí của nó trên trang và sử dụng các heuristic để tái tạo thứ tự đọc, nhưng các heuristic đó giả định luồng cột đơn. Kết quả cho một trang nhiều cột có thể là: dòng đầu tiên của cột trái, dòng đầu tiên của cột phải, dòng thứ hai của cột trái, và cứ thế. Đối với các bố cục này, hãy trích xuất từng trang một và chọn các cột bằng mắt, hoặc sử dụng một công cụ nhận biết bố cục như thư viện python pdfplumber.

Các mã hóa phông chữ tùy chỉnh tạo ra văn bản vô nghĩa

Một PDF có thể sử dụng bất kỳ phông chữ nào, và phông chữ có thể ánh xạ các ID glyph của nó với bất kỳ mã ký tự nào mà tác giả chọn. PDF/A và hầu hết các PDF hiện đại bao gồm một bản đồ ToUnicode nói rằng glyph 5 có nghĩa là chữ A, nhưng các PDF cũ hơn hoặc cẩu thả đôi khi bỏ qua bản đồ. Không có ToUnicode, văn bản được trích xuất là các ID glyph thô (thường xuất hiện dưới dạng các ô, số, hoặc các chữ cái ngẫu nhiên), và không có cách nào để khôi phục các ký tự gốc mà không có OCR. Nếu chỉ các từ cụ thể trông sai, nguyên nhân thường là ToUnicode bị thiếu cho một phông chữ nhúng duy nhất.

Ligature có thể được trích xuất dưới dạng các ký tự kết hợp

Kiểu chữ chuyên nghiệp kết hợp các cặp chữ cái nhất định (fi, fl, ff, ffi) thành các glyph đơn được gọi là ligature. PDF có thể lưu trữ ligature dưới dạng codepoint Unicode U+FB01 (ligature fi) thay vì hai chữ cái f và i. Văn bản được trích xuất chứa codepoint ligature, mà hầu hết các trình chỉnh sửa kết xuất chính xác nhưng một số công cụ xử lý văn bản nghẹt. Nếu bạn đang đưa đầu ra vào một chỉ mục tìm kiếm hoặc công cụ ngôn ngữ tự nhiên, hãy chạy một thay thế một dòng để chuẩn hóa U+FB01 thành fi và U+FB02 thành fl.

Tiêu đề và chân trang lặp lại trên mỗi trang

Hầu hết các PDF có một tiêu đề chạy (tiêu đề chương, tiêu đề tài liệu) và chân trang (số trang, dòng bản quyền) trên mỗi trang. Trình trích xuất nhặt chúng vì chúng là văn bản thực trên trang, và bạn kết thúc với cùng một dòng lặp lại 200 lần trong một tài liệu 200 trang. Cách khắc phục là một tập lệnh khử trùng lặp đơn giản hoặc một lần tìm-và-thay-thế thủ công sau khi trích xuất. Đối với các tài liệu dài, đây đôi khi là bước dọn dẹp lớn nhất.

Các phương trình và công thức toán học hiếm khi trích xuất sạch sẽ

Toán học được định vị bằng cách sử dụng các glyph cá nhân từ các phông chữ ký hiệu đặc biệt (Computer Modern, STIX). Trình trích xuất đọc các glyph nhưng mất các mối quan hệ không gian làm cho x bình phương khác với x nhân 2. Các phương trình inline như E bằng mc bình phương ra méo mó, và các phương trình hiển thị ra dưới dạng các chuỗi ký hiệu lộn xộn. Đối với các PDF nặng về toán học, hãy sử dụng một công cụ giữ cấu trúc phương trình (MathPix snip, Adobe Acrobat Pro với chảy lại phương trình), hoặc trích xuất các phương trình dưới dạng hình ảnh.

Quyền riêng tư và xử lý dữ liệu

Tệp PDF mà bạn thả vào công cụ ở lại trên thiết bị của bạn suốt thời gian. pdf.js là một thư viện JavaScript chạy trong trình duyệt của bạn, không phải trên một máy chủ từ xa. Tệp được tải vào bộ nhớ bởi trình duyệt của bạn, được phân tích cú pháp từng trang, và văn bản được trích xuất xuất hiện trong textarea trên cùng một trang. Chúng tôi không bao giờ tải tệp lên, không bao giờ ghi nhật ký nội dung của nó, và không bao giờ phân tích nó. Điều này quan trọng vì các PDF thường chứa thông tin bí mật: hợp đồng, hồ sơ y tế, thư từ pháp lý, báo cáo tài chính.

Sau khi trang được tải, công cụ hoạt động ngoại tuyến. Bạn có thể ngắt kết nối khỏi internet, thả một PDF, trích xuất nó, và sao chép kết quả mà dữ liệu của bạn không bao giờ chạm vào một máy khác. Văn bản được trích xuất chỉ rời khỏi máy của bạn nếu bạn chọn dán hoặc gửi nó đến đâu đó tự mình. Nhiều trình trích xuất PDF SaaS gửi tệp của bạn đến một dịch vụ đám mây để xử lý; đối với các tài liệu nhạy cảm đó chính xác là điều bạn muốn tránh.

Khi không sử dụng công cụ này

Các PDF được quét hoặc chỉ hình ảnh (cần OCR trước)

Nếu PDF của bạn là một bản quét giấy hoặc một loạt ảnh, không có văn bản nhúng nào để trích xuất; công cụ này trả về kết quả trống. Chạy PDF qua một công cụ OCR trước để thêm một lớp văn bản: Tesseract (miễn phí, dòng lệnh, rất tốt cho tiếng Anh và các chữ viết Latin), Adobe Acrobat Pro (trả phí, giữ bố cục tốt nhất), hoặc ABBYY FineReader (trả phí, tốt nhất cho các chữ viết không phải Latin và các tài liệu phức tạp). Sau OCR, trình trích xuất này sẽ hoạt động bình thường.

Các biểu mẫu PDF có thể điền với giá trị trường

Một biểu mẫu PDF lưu trữ các giá trị trường (văn bản bạn đã nhập vào trường tên, trạng thái được chọn của hộp kiểm) riêng biệt với văn bản trang tĩnh. Trình trích xuất này chỉ đọc văn bản trang tĩnh, vì vậy các giá trị biểu mẫu bị bỏ lỡ. Để trích xuất dữ liệu biểu mẫu, hãy sử dụng một thư viện biểu mẫu PDF đọc trực tiếp từ điển AcroForm hoặc XFA (pdftk, Adobe Acrobat Export Data, hoặc API trường biểu mẫu của python-pdfplumber).

Khi bạn cần giữ định dạng

Văn bản thuần túy mất tất cả định dạng: in đậm, in nghiêng, danh sách, bảng, tiêu đề, màu sắc, phông chữ. Nếu bạn cần một tài liệu có thể chỉnh sửa giữ bố cục, hãy sử dụng một bộ chuyển đổi PDF-sang-Word thay thế (xây dựng một tài liệu Word có cấu trúc với kiểu đoạn văn và bảng), hoặc PDF-sang-HTML cho đầu ra thân thiện với web. PDF-sang-văn-bản là cho trường hợp bạn thực sự chỉ cần các từ.

PDF được mã hóa không có mật khẩu

PDF có thể được mã hóa bằng mật khẩu người dùng (yêu cầu để mở tệp) hoặc mật khẩu chủ sở hữu (hạn chế các hành động như in hoặc sao chép). pdf.js yêu cầu mật khẩu người dùng để mở một tệp được mã hóa; không có nó, không thể trích xuất. Loại bỏ mật khẩu trước bằng một công cụ mở khóa PDF (chỉ trên các tài liệu bạn có quyền truy cập) và sau đó trích xuất. Mật khẩu chủ sở hữu đôi khi chặn sao chép bên trong Adobe Reader nhưng không chặn trích xuất ở đây.

Các câu hỏi khác

Lớp văn bản PDF là gì?

Một lớp văn bản là phần của PDF lưu trữ các ký tự dưới dạng văn bản có thể đọc được bằng máy (các toán tử Tj và TJ trong luồng nội dung) thay vì dưới dạng pixel. PDF kỹ thuật số được tạo bởi Word, LaTeX, hoặc các công cụ web-sang-PDF luôn có một lớp văn bản. PDF được quét không có, cho đến khi bạn thêm một bằng OCR. Lớp văn bản là điều cho phép tìm kiếm, sao chép-dán, trình đọc màn hình, và các công cụ như trình trích xuất này hoạt động.

Tại sao một số văn bản tôi trích xuất bị xáo trộn hoặc lộn xộn?

Các PDF không lưu trữ văn bản theo thứ tự đọc; chúng lưu trữ nó dưới dạng các toán tử glyph ở các vị trí x và y trên trang. Trình trích xuất tái tạo thứ tự đọc bằng cách sắp xếp từ trên xuống dưới và từ trái sang phải trong các hàng. Điều này hoạt động cho luồng cột đơn nhưng có thể đan xen các cột, trộn các tiêu đề với văn bản thân, hoặc tách các đoạn văn ở các ngắt cột. Đối với các bố cục phức tạp, hãy thử sao chép từng trang hoặc sử dụng một thư viện Python nhận biết bố cục như pdfplumber.

Tôi có thể trích xuất văn bản từ một PDF dài hàng trăm trang không?

Có, nhưng hãy mong đợi nó mất nhiều thời gian hơn và sử dụng nhiều bộ nhớ hơn. Mỗi trang được phân tích cú pháp tuần tự trong JavaScript, đơn luồng, vì vậy một cuốn sách 500 trang có thể mất 20 đến 60 giây tùy thuộc vào máy của bạn và sự phức tạp của các trang. Trần bộ nhớ của trình duyệt (một vài GB cho Chrome máy tính để bàn, ít hơn cho di động) giới hạn tổng kích thước tệp hơn là số trang. Nếu một PDF khổng lồ bị treo, hãy thử chia nó trước với công cụ chia PDF và trích xuất theo từng khối.

PDF/A là gì và tại sao văn bản của nó dễ trích xuất hơn?

PDF/A là tập con lưu trữ của PDF được định nghĩa bởi ISO 19005. Nó yêu cầu tất cả các phông chữ được nhúng với một bản đồ ToUnicode, tất cả các hồ sơ màu là tự chứa, và không có tài nguyên bên ngoài nào được tham chiếu. Yêu cầu ToUnicode là điều làm cho việc trích xuất đáng tin cậy: mỗi glyph trong tài liệu ánh xạ lại với một ký tự Unicode tiêu chuẩn. Các kho lưu trữ quốc gia, tòa án, và hệ thống hồ sơ doanh nghiệp sử dụng PDF/A chính xác để văn bản vẫn có thể trích xuất được hàng thập kỷ sau.

Việc trích xuất chính xác đến mức nào so với Adobe Acrobat?

Đối với các PDF kỹ thuật số đơn giản, đầu ra giống hệt nhau từng ký tự. Acrobat có các heuristic tinh vi hơn để xử lý các bố cục nhiều cột và bảng phức tạp, vì vậy đối với những trường hợp cụ thể đó, đầu ra của nó có thể dễ đọc hơn. pdf.js (công cụ này) đã được tích cực phát triển kể từ năm 2011 và bây giờ vượt qua hầu hết các bài kiểm tra tuân thủ đặc tả PDF. Đối với các tài liệu văn phòng và nghiên cứu điển hình, sự khác biệt là không đáng kể.

Công cụ có hỗ trợ các chữ viết không phải Latin (tiếng Trung, tiếng Ả Rập, Cyrillic) không?

Có, miễn là PDF có một bản đồ ToUnicode thích hợp cho các ký tự đó (mà bất kỳ PDF hiện đại nào cũng có). Văn bản được trích xuất là UTF-8 và kết xuất chính xác trong bất kỳ trình chỉnh sửa hiện đại nào. Các chữ viết từ phải sang trái như tiếng Ả Rập và tiếng Do Thái được trích xuất theo thứ tự logic, không theo thứ tự trực quan, đó là những gì bạn muốn cho việc xử lý thêm. Việc trích xuất CJK (tiếng Trung, tiếng Nhật, tiếng Hàn) được hỗ trợ đầy đủ vì pdf.js xử lý hệ thống CIDFont mà PDF sử dụng cho các chữ viết đó.

Công cụ liên quan