Cách trích xuất văn bản từ PDF

· 3 phút đọc

Sao chép văn bản từ PDF có thể gây thất vọng đáng ngạc nhiên. Định dạng bị phá vỡ, các cột bị trộn lẫn và các dấu xuống dòng xuất hiện ở những nơi không phù hợp. Một công cụ trích xuất chuyên dụng lấy nội dung văn bản thô từ cấu trúc PDF, cho bạn văn bản sạch để làm việc.

PDF văn bản so với PDF được quét

Trước khi trích xuất văn bản, hữu ích để biết bạn có loại PDF nào:

PDF văn bản — được tạo từ Word, một trang web hoặc một nguồn kỹ thuật số khác. Văn bản được lưu trữ dưới dạng dữ liệu bên trong PDF. Bạn có thể chọn và tô sáng nó khi xem. Việc trích xuất hoạt động hoàn hảo với các tệp này.

PDF được quét — được tạo bằng cách quét một tài liệu vật lý. PDF chứa hình ảnh của các trang, không phải văn bản thực. Bạn không thể chọn văn bản trong các tệp này. Việc trích xuất tiêu chuẩn trả về kết quả trống — cần phần mềm OCR thay vào đó.

PDF kết hợp — một số PDF kết hợp văn bản kỹ thuật số và hình ảnh được quét. Trình trích xuất sẽ lấy văn bản nhưng không lấy nội dung dựa trên hình ảnh.

Cách trích xuất văn bản từ PDF

  1. Tải lên PDF của bạn — chọn tệp hoặc kéo và thả nó. Công cụ chấp nhận bất kỳ PDF tiêu chuẩn nào.
  2. Trích xuất văn bản — nhấp nút trích xuất. Công cụ xử lý tất cả các trang và hiển thị văn bản thô.
  3. Sao chép hoặc tải xuống — sao chép văn bản vào bộ nhớ tạm hoặc tải xuống dưới dạng tệp TXT.

Khi nào việc trích xuất hữu ích

Mẹo

Câu hỏi thường gặp

Tại sao việc trích xuất PDF của tôi trả về kết quả trống?

PDF có thể là một tài liệu được quét — nó chứa hình ảnh văn bản, không phải dữ liệu văn bản thực. Việc trích xuất chỉ hoạt động với các PDF chứa văn bản tích hợp và có thể chọn được. Đối với các tài liệu được quét, cần phần mềm OCR (nhận dạng ký tự quang học).

Công cụ này có sử dụng OCR không?

Không. Nó trích xuất trực tiếp văn bản được tích hợp vào cấu trúc PDF. Nhanh hơn và chính xác hơn OCR cho các PDF văn bản, nhưng nó không thể đọc văn bản trên hình ảnh được quét.

PDF của tôi có được gửi đến máy chủ không?

Không. Tất cả việc xử lý diễn ra trong trình duyệt của bạn. PDF của bạn không bao giờ rời khỏi thiết bị của bạn, làm cho nó an toàn cho các tài liệu bí mật.

Tôi có thể trích xuất văn bản từ một trang cụ thể không?

Công cụ xử lý tất cả các trang và trả về văn bản đầy đủ. Sau đó bạn có thể sao chép hoặc chỉnh sửa các phần mong muốn từ kết quả.