Cách che thông tin nhạy cảm trong PDF đúng cách

· 8 phút đọc

Che (redact) một PDF là một trong những công việc trông có vẻ dễ nhưng đi sai theo những cách ngoạn mục. Vẽ một hình chữ nhật đen lên một cái tên trong Acrobat hoặc Preview che giấu cái tên về mặt thị giác nhưng để lại văn bản gốc trong tài liệu, có thể phục hồi trong vài giây bởi bất kỳ ai có một trình đọc PDF miễn phí. Các vụ rò rỉ nổi tiếng tại Liên Hợp Quốc, Bộ Tư pháp Hoa Kỳ và đội ngũ pháp lý của Manafort tất cả đều liên quan chính xác sai lầm này. Việc che chính xác loại bỏ vĩnh viễn văn bản khỏi tài liệu, điều khó hơn nghe có vẻ và được hưởng lợi từ một công cụ được xây dựng cho mục đích này.

Lịch sử ngắn về các thất bại che PDF

Các thất bại che PDF đã là một câu chuyện tin tức tái diễn trong hơn hai mươi năm. Vào tháng 5 năm 2005, quân đội Mỹ đã xuất bản một báo cáo về vụ giết hại nhà báo Ý Nicola Calipari ở Iraq với các phần nhạy cảm được "che" bằng các lớp phủ đen; các nhà báo Ý tải xuống PDF có thể chọn và sao chép văn bản bên dưới trong vài phút. Năm 2009, Bộ Tư pháp Mỹ phát hành một bản ghi nhớ về thẩm vấn nâng cao với cùng khuyết điểm. Năm 2019, đội ngũ pháp lý của Paul Manafort đã nộp một tài liệu tòa án với các vùng che màu đen trong dấu ngoặc hóa ra là các hộp trong suốt, làm lộ các chi tiết về các liên hệ của ông với Konstantin Kilimnik. Cùng năm đó, một hồ sơ bí mật của Boeing nộp cho FAA về hệ thống MCAS 737 MAX đã đến tay các phóng viên ở dạng hoàn toàn có thể đọc được vì các vùng che chỉ là hình dạng.

Mô hình này nhất quán đến mức NSA đã xuất bản hướng dẫn "Redacting with Confidence: How to Safely Publish Sanitized Reports Converted from Word to PDF" vào cuối năm 2005, và Adobe và Foxit đều phát hành các chế độ che chuyên dụng trong những năm tiếp theo. Bài học cốt lõi: một công cụ che phải xóa văn bản bên dưới và thay thế nó bằng một dấu hiệu mờ; che bằng hình chữ nhật về mặt thị giác không bao giờ là đủ.

Tại sao che văn bản về mặt thị giác lại thất bại

PDF lưu trữ một trang dưới dạng content stream: một chuỗi các toán tử vẽ đặt văn bản, đường, hình chữ nhật và hình ảnh trên trang. Khi bạn vẽ một hình chữ nhật đen lên một cái tên trong Acrobat, PDF bây giờ chứa cả toán tử văn bản (viết tên) và toán tử hình chữ nhật (vẽ hộp lên trên nó). Người xem render cả hai, theo thứ tự, tạo ra một trang nơi tên được giấu về mặt thị giác. Toán tử văn bản vẫn còn trong file, có thể lập chỉ mục, có thể sao chép và có thể phục hồi bởi bất kỳ trình phân tích PDF nào. Reader của chính Adobe sẽ cho phép bạn chọn văn bản ẩn bằng Ctrl+A và dán vào Notepad.

Các trường biểu mẫu, bình luận và metadata được lưu trữ trong các từ điển hoàn toàn riêng biệt trong PDF và không bị ảnh hưởng bởi các lớp phủ thị giác chút nào. Một PDF "đã che" mà vẫn có tên tác giả trong metadata, bình luận tham chiếu văn bản bị che theo tên, hoặc các giá trị trường biểu mẫu chứa dữ liệu gốc cũng dễ rò rỉ như một PDF có văn bản dưới một hình chữ nhật.

Cách một công cụ che thực sự hoạt động

Một việc che thực sự làm ba điều:

  1. Loại bỏ nội dung văn bản từ content stream tại các khu vực bị che, để bất kỳ trình phân tích nào trong tương lai thấy dấu hiệu che, không phải văn bản gốc.
  2. Loại bỏ bất kỳ metadata nào tham chiếu nội dung gốc, bao gồm tác giả tài liệu, người chỉnh sửa cuối, phần mềm, tên file gốc và bất kỳ trường metadata XMP tùy chỉnh nào.
  3. Loại bỏ các trường biểu mẫu, bình luận và file đính kèm trùng lặp hoặc tham chiếu các khu vực bị che.
  4. Thay thế khu vực bằng một dấu hiệu mờ (thường là một hình chữ nhật đen, đôi khi với lý do che như "[FOIA exemption b6]") được vẽ lên trên nội dung giờ đã trống.

Các công cụ che dựa trên trình duyệt sử dụng pdf-lib hoặc PDF.js có thể làm tất cả điều này trong JavaScript mà không cần tải lên file. PDF đã che được xây dựng lại cục bộ và được cung cấp dưới dạng tải xuống. Vì bản gốc không bao giờ rời thiết bị của bạn, bảo đảm về quyền riêng tư là toàn diện.

Cách che một PDF, từng bước

  1. Tải lên PDF. Thả file lên trang. Công cụ đọc nó vào bộ nhớ và hiển thị trang đầu tiên để xem trước. Không có gì được tải lên.
  2. Tìm những gì cần che. Sử dụng tìm kiếm văn bản để tìm tên, số tài khoản, ngày sinh, địa chỉ, hoặc bất kỳ chuỗi nhạy cảm tái diễn nào khác. Công cụ làm nổi bật mọi lần xuất hiện.
  3. Đánh dấu các khu vực che. Nhấp và kéo để vẽ một hình chữ nhật, hoặc nhấp "che tất cả các kết quả khớp" để áp dụng dấu hiệu cho mọi trường hợp được tìm thấy cùng một lúc.
  4. Tùy chọn thêm nhãn lý do. Quy trình của chính phủ (FOIA, GDPR Điều 17, HIPAA) thường yêu cầu việc che phải được dán nhãn với cơ sở pháp lý. Gõ nhãn và nó sẽ được vẽ bên trong hình chữ nhật.
  5. Áp dụng việc che. Đây là bước then chốt: nó vĩnh viễn xóa văn bản dưới các hình chữ nhật khỏi content stream, làm sạch metadata, và lưu một PDF mới với các dấu hiệu được đốt vào.
  6. Xác minh kết quả. Mở PDF đã che, thử Ctrl+A rồi Ctrl+C và dán vào trình soạn thảo văn bản. Bạn nên thấy các nhãn che (hoặc không có gì) ở nơi văn bản gốc từng ở, không bao giờ thấy văn bản gốc.

Cần che những gì

Các trường hợp rõ ràng là tên, địa chỉ, số điện thoại, địa chỉ email và số tài khoản. Những trường hợp ít rõ ràng hơn gây ra phần lớn các rò rỉ trong thế giới thực:

Danh mụcCần tìm gì
Định danh trực tiếpTên, địa chỉ, số điện thoại, địa chỉ email, số an sinh xã hội
Tài chínhSố tài khoản, số thẻ tín dụng, IBAN, số routing, số dư
Sức khỏeChẩn đoán, thuốc, ngày điều trị, ID bệnh nhân, số bảo hiểm
Chính phủSố vụ án, định danh nguồn, ngày và thời gian hoạt động, vị trí
Định danh gián tiếpChức danh + chủ sử dụng lao động + thành phố (định danh duy nhất), mô tả phương tiện độc đáo, tình trạng y tế đặc biệt
MetadataTác giả tài liệu, tên file gốc, người chỉnh sửa cuối, phiên bản phần mềm, tổng thời gian chỉnh sửa
Bình luậnBình luận của người đánh giá, chú thích "H: ai là người này?", các thay đổi được theo dõi
Trường biểu mẫuCác giá trị được điền sẵn, ngay cả từ các phiên bản trước
File đính kèmCác file nhúng được tài liệu tham chiếu
Khu vực hình ảnhTên trên ảnh chụp màn hình, khuôn mặt trong ảnh, biển số xe, địa chỉ trên phong bì

Hàng cuối cùng đặc biệt quan trọng: ảnh chụp màn hình của một CRM hiển thị một bản ghi khách hàng, được nhúng trong PDF dưới dạng hình ảnh raster, sẽ không được che bởi các công cụ lớp văn bản. Bản thân hình ảnh phải được sơn phủ lên.

Các cạm bẫy phổ biến

Các công cụ và quy trình thay thế

Công cụĐiểm mạnhCần chú ý
Browser PDF redactor (công cụ này)Cục bộ, không tải lên, miễn phíChậm hơn các công cụ gốc trên các PDF rất lớn
Adobe Acrobat ProTiêu chuẩn ngành, che hàng loạt, dấu vết audit có chữ kýTrả phí, xử lý cục bộ nhưng vendor lock-in
Foxit PhantomPDFRẻ hơn Adobe, bộ tính năng tương tựMột số việc che ở cấp đăng ký
qpdf (CLI)Mạnh mẽ, có thể script, miễn phíKhông phải công cụ che thực sự, bạn phải kết hợp với pdftotext + sed để loại bỏ văn bản
pdftkPhổ biến cho việc chia tách và gộpKhông bao gồm che; đừng sử dụng nó để loại bỏ dữ liệu nhạy cảm
Rasterization in-sang-PDFLoại bỏ lớp văn bản theo thiết kếKích thước file khổng lồ, mất khả năng tìm kiếm, dấu vết cấp hình ảnh có thể còn lại
Dịch vụ "che" trực tuyếnUI nhanh chóngTải lên máy chủ bên thứ ba; xem xét chính sách lưu giữ và quyền riêng tư của họ

Đối với một lần nộp đơn pháp lý hoặc đơn xin việc, công cụ trình duyệt là câu trả lời đúng. Đối với việc che hàng loạt hàng trăm yêu cầu FOIA, Acrobat Pro hoặc một pipeline qpdf + pdftotext được script tự trả lại chính nó. Đối với việc che các bản scan có nhiều hình ảnh, hãy chạy OCR trước rồi che các hộp giới hạn cả trong lớp văn bản OCR và raster cơ bản.

Danh sách kiểm tra xác minh trước khi chia sẻ

Trước khi bạn gửi một PDF đã che ra ngoài đội của bạn, hãy chạy qua danh sách kiểm tra này:

Quyền riêng tư và redactor

Browser PDF redactor chạy hoàn toàn trong bộ nhớ thiết bị của bạn. File bạn thả được đọc bởi File API, được phân tích bởi pdf-lib hoặc PDF.js trong JavaScript, được render lại với các việc che được áp dụng, và được cung cấp lại dưới dạng tải xuống. Không có gì được tải lên, không có gì được ghi nhật ký, không có gì được cache phía máy chủ. Đối với tài liệu nhạy cảm (hồ sơ tòa án, hồ sơ y tế, phản hồi FOIA, thông báo vi phạm), luồng chỉ-cục-bộ đó là sự khác biệt giữa một việc che bạn kiểm soát và một việc che bạn phải tin tưởng người khác xử lý đúng cách. Toàn bộ công cụ có thể chạy ngoại tuyến sau khi trang được tải, điều bạn có thể xác minh bằng cách ngắt kết nối mạng và che một file khác.

Câu hỏi thường gặp

Is drawing a black box over text in a PDF editor enough to redact it?

No. Drawing a black rectangle over text only hides the text visually. The underlying characters remain in the PDF and can be recovered by copying, by selecting the text under the rectangle, or by extracting the text layer with any PDF parser. Proper redaction removes the text from the document and replaces it with an opaque shape.

What kinds of information can be recovered from a poorly redacted PDF?

Text content (even if covered visually), embedded metadata (author, last editor, software, original filename), revision history if the PDF was saved with track changes, comments, form field values, attached files, and sometimes raster image previews that show the original page before the redaction overlay.

Does flattening a PDF redact it?

Flattening merges layers and removes form fields, but does not by itself remove the text under a drawn rectangle. The text content remains in the content stream. You must explicitly delete the text, not just cover it.

How do I redact text that appears as part of an image (a scan)?

For scanned documents, run OCR first to detect the text positions, then redact those regions in the underlying image (not just the OCR layer). Some tools let you paint over the image with a solid colour at the redaction location, which is the correct approach for raster content.

What standards define proper PDF redaction?

The U.S. National Security Agency published "Redacting with Confidence" in 2005-2006, after several high-profile failed redactions led to leaks. Adobe's PDF Reference and the ISO 32000-1 PDF specification describe content streams in enough detail to confirm that visually covering text does not remove it. The CIA, FBI, and most government agencies now require the use of dedicated redaction tools that destroy the underlying content, not just hide it.