Cara Menyensor Informasi Sensitif dari PDF dengan Benar

· 8 menit baca

Menyensor PDF adalah salah satu dari tugas-tugas yang terlihat mudah dan menjadi salah dengan cara yang spektakuler. Menggambar persegi panjang hitam di atas sebuah nama di Acrobat atau Preview menyembunyikan nama secara visual tetapi meninggalkan teks asli dalam dokumen, dapat dipulihkan dalam hitungan detik oleh siapa pun dengan pembaca PDF gratis. Kebocoran terkenal di Perserikatan Bangsa-Bangsa, U.S. Department of Justice, dan tim hukum Manafort semuanya melibatkan persis kesalahan ini. Penyensoran yang benar menghapus teks secara permanen dari dokumen, yang lebih sulit daripada kedengarannya dan diuntungkan dari alat yang dibangun untuk tujuan tersebut.

Sejarah singkat penyensoran PDF yang gagal

Kegagalan penyensoran PDF telah menjadi cerita berita berulang selama lebih dari dua puluh tahun. Pada Mei 2005, militer AS menerbitkan laporan tentang pembunuhan jurnalis Italia Nicola Calipari di Irak dengan bagian-bagian sensitif "disensor" oleh overlay hitam; jurnalis Italia yang mengunduh PDF dapat memilih dan menyalin teks di bawahnya dalam hitungan menit. Pada 2009, U.S. Department of Justice merilis memo tentang interogasi yang ditingkatkan dengan cacat yang sama. Pada 2019, tim hukum Paul Manafort mengajukan dokumen pengadilan dengan penyensoran hitam bertanda kurung yang ternyata adalah kotak transparan, mengekspos rincian kontaknya dengan Konstantin Kilimnik. Tahun yang sama, pengajuan rahasia Boeing FAA tentang sistem MCAS 737 MAX mencapai reporter dalam bentuk yang sepenuhnya dapat dibaca karena penyensoran hanyalah bentuk.

Pola ini sangat konsisten sehingga NSA menerbitkan panduan "Redacting with Confidence: How to Safely Publish Sanitized Reports Converted from Word to PDF" pada akhir 2005, dan Adobe maupun Foxit sama-sama mengirimkan mode penyensoran khusus dalam tahun-tahun berikutnya. Pelajaran inti: alat penyensoran harus menghapus teks di bawahnya dan menggantinya dengan tanda buram; menutupi secara visual dengan persegi panjang tidak pernah cukup.

Mengapa menutupi teks secara visual gagal

PDF menyimpan halaman sebagai content stream: urutan operator gambar yang menempatkan teks, garis, persegi panjang, dan gambar pada halaman. Ketika Anda menggambar persegi panjang hitam di atas nama di Acrobat, PDF sekarang berisi baik operator teks (menulis nama) dan operator persegi panjang (menggambar kotak di atasnya). Penampil merender keduanya, secara berurutan, menghasilkan halaman di mana nama disembunyikan secara visual. Operator teks masih dalam file, dapat diindeks, dapat disalin, dan dapat dipulihkan oleh parser PDF apa pun. Reader milik Adobe sendiri akan membiarkan Anda memilih teks tersembunyi dengan Ctrl+A dan menempelkannya ke Notepad.

Bidang formulir, komentar, dan metadata disimpan dalam kamus yang sepenuhnya terpisah dalam PDF dan tidak terpengaruh oleh overlay visual sama sekali. PDF "disensor" yang masih memiliki nama penulis di metadata, komentar yang merujuk teks yang disensor dengan nama, atau nilai bidang formulir yang berisi data asli sama bocornya dengan yang memiliki teks di bawah persegi panjang.

Cara alat penyensoran yang tepat bekerja

Penyensoran nyata melakukan tiga hal:

  1. Menghapus konten teks dari content stream di wilayah yang disensor, sehingga parser masa depan apa pun melihat tanda penyensoran, bukan teks asli.
  2. Menghapus metadata apa pun yang merujuk konten asli, termasuk penulis dokumen, editor terakhir, perangkat lunak, nama file asli, dan bidang metadata XMP kustom apa pun.
  3. Menghapus bidang formulir, komentar, dan lampiran yang tumpang tindih atau merujuk wilayah yang disensor.
  4. Mengganti area dengan tanda buram (biasanya persegi panjang hitam, kadang-kadang dengan alasan penyensoran seperti "[FOIA exemption b6]") digambar di atas konten yang sekarang kosong.

Alat penyensoran berbasis browser yang menggunakan pdf-lib atau PDF.js dapat melakukan semua ini dalam JavaScript tanpa mengunggah file. PDF yang disensor dibangun kembali secara lokal dan ditawarkan sebagai unduhan. Karena yang asli tidak pernah meninggalkan perangkat Anda, jaminan privasi sepenuhnya.

Cara menyensor PDF, langkah demi langkah

  1. Unggah PDF. Jatuhkan file ke halaman. Alat membacanya ke memori dan menunjukkan halaman pertama untuk pratinjau. Tidak ada yang diunggah.
  2. Temukan apa yang harus disensor. Gunakan pencarian teks untuk menemukan nama, nomor rekening, tanggal lahir, alamat, atau string sensitif berulang lainnya. Alat menyoroti setiap kemunculan.
  3. Tandai wilayah penyensoran. Klik dan seret untuk menggambar persegi panjang, atau klik "sensor semua kecocokan" untuk menerapkan tanda ke setiap instance yang ditemukan sekaligus.
  4. Opsional tambahkan label alasan. Alur kerja pemerintah (FOIA, GDPR Pasal 17, HIPAA) sering mengharuskan penyensoran dilabel dengan dasar hukumnya. Ketik label dan akan digambar di dalam persegi panjang.
  5. Terapkan penyensoran. Ini adalah langkah kuncinya: ini secara permanen menghapus teks di bawah persegi panjang dari content stream, membersihkan metadata, dan menyimpan PDF baru dengan tanda yang dibakar masuk.
  6. Verifikasi hasilnya. Buka PDF yang disensor, coba Ctrl+A lalu Ctrl+C dan tempelkan ke editor teks. Anda harus melihat label penyensoran (atau tidak ada) di mana teks asli berada, tidak pernah teks asli itu sendiri.

Apa yang harus disensor

Kasus yang jelas adalah nama, alamat, nomor telepon, alamat email, dan nomor rekening. Yang kurang jelas menyebabkan sebagian besar kebocoran dunia nyata:

KategoriApa yang dicari
Pengenal langsungNama, alamat, nomor telepon, alamat email, nomor jaminan sosial
FinansialNomor rekening, nomor kartu kredit, IBAN, nomor routing, saldo
KesehatanDiagnosis, obat-obatan, tanggal perawatan, ID pasien, nomor asuransi
PemerintahNomor kasus, pengenal sumber, tanggal dan waktu operasi, lokasi
Pengenal tidak langsungJabatan + atasan + kota (mengidentifikasi unik), deskripsi kendaraan unik, kondisi medis khas
MetadataPenulis dokumen, nama file asli, editor terakhir, versi perangkat lunak, total waktu edit
KomentarKomentar peninjau, anotasi "Q: siapa orang ini?", perubahan terlacak
Bidang formulirNilai pra-isi, bahkan dari versi sebelumnya
LampiranFile tertanam yang dirujuk oleh dokumen
Wilayah gambarNama pada screenshot, wajah dalam foto, plat nomor, alamat pada amplop

Baris terakhir sangat penting: screenshot CRM yang menunjukkan catatan pelanggan, tertanam di PDF sebagai gambar raster, tidak akan disensor oleh alat lapisan teks. Gambar itu sendiri harus dicat.

Jebakan umum

Alat dan alur kerja alternatif

AlatKekuatanWaspadalah pada
Browser PDF redactor (alat ini)Lokal, tanpa unggah, gratisLebih lambat dari alat asli pada PDF yang sangat besar
Adobe Acrobat ProStandar industri, penyensoran batch, jejak audit yang ditandatanganiBerbayar, memproses secara lokal tetapi vendor lock-in
Foxit PhantomPDFLebih murah dari Adobe, set fitur serupaBeberapa penyensoran adalah tier langganan
qpdf (CLI)Kuat, dapat di-script, gratisBukan alat penyensoran sejati, Anda harus menggabungkan dengan pdftotext + sed untuk penghapusan teks
pdftkUmum untuk pemisahan dan penggabunganTidak termasuk penyensoran; jangan gunakan untuk penghapusan sensitif
Rasterisasi print-to-PDFMenghapus lapisan teks secara desainUkuran file besar, hilangnya kemampuan pencarian, jejak tingkat gambar mungkin tetap
Layanan "penyensoran" onlineUI cepatUnggah ke server pihak ketiga; tinjau kebijakan retensi dan privasi mereka

Untuk pengajuan hukum sekali pakai atau lamaran pekerjaan, alat browser adalah jawaban yang tepat. Untuk penyensoran batch ratusan permintaan FOIA, Acrobat Pro atau pipeline qpdf + pdftotext yang di-script membayar dirinya sendiri. Untuk menyensor pemindaian yang banyak gambar, jalankan OCR terlebih dahulu dan kemudian sensor kotak pembatas baik dalam lapisan teks OCR maupun raster yang mendasarinya.

Daftar periksa verifikasi sebelum berbagi

Sebelum Anda mengirim PDF yang disensor ke luar tim Anda, telusuri daftar periksa ini:

Privasi dan redactor

Browser PDF redactor berjalan sepenuhnya di memori perangkat Anda. File yang Anda jatuhkan dibaca oleh File API, diuraikan oleh pdf-lib atau PDF.js dalam JavaScript, dirender ulang dengan penyensoran diterapkan, dan ditawarkan kembali sebagai unduhan. Tidak ada yang diunggah, tidak ada yang dicatat, tidak ada yang di-cache di sisi server. Untuk materi sensitif (pengajuan pengadilan, catatan medis, tanggapan FOIA, pemberitahuan pelanggaran), alur khusus-lokal itu adalah perbedaan antara penyensoran yang Anda kontrol dan penyensoran yang Anda harus percayakan orang lain untuk menangani dengan benar. Seluruh alat dapat berjalan offline setelah halaman dimuat, yang dapat Anda verifikasi dengan memutuskan jaringan dan menyensor file lain.

Pertanyaan yang sering diajukan

Is drawing a black box over text in a PDF editor enough to redact it?

No. Drawing a black rectangle over text only hides the text visually. The underlying characters remain in the PDF and can be recovered by copying, by selecting the text under the rectangle, or by extracting the text layer with any PDF parser. Proper redaction removes the text from the document and replaces it with an opaque shape.

What kinds of information can be recovered from a poorly redacted PDF?

Text content (even if covered visually), embedded metadata (author, last editor, software, original filename), revision history if the PDF was saved with track changes, comments, form field values, attached files, and sometimes raster image previews that show the original page before the redaction overlay.

Does flattening a PDF redact it?

Flattening merges layers and removes form fields, but does not by itself remove the text under a drawn rectangle. The text content remains in the content stream. You must explicitly delete the text, not just cover it.

How do I redact text that appears as part of an image (a scan)?

For scanned documents, run OCR first to detect the text positions, then redact those regions in the underlying image (not just the OCR layer). Some tools let you paint over the image with a solid colour at the redaction location, which is the correct approach for raster content.

What standards define proper PDF redaction?

The U.S. National Security Agency published "Redacting with Confidence" in 2005-2006, after several high-profile failed redactions led to leaks. Adobe's PDF Reference and the ISO 32000-1 PDF specification describe content streams in enough detail to confirm that visually covering text does not remove it. The CIA, FBI, and most government agencies now require the use of dedicated redaction tools that destroy the underlying content, not just hide it.