Konverter PDF ke Teks Gratis

Ekstrak semua konten teks dari file PDF secara instan. Unduh sebagai TXT atau salin ke clipboard. File Anda tidak pernah meninggalkan perangkat.

File Anda tidak pernah meninggalkan perangkat

Jatuhkan file PDF di sini atau klik untuk menelusuri

Mendukung PDF · hingga 50 MB

Statistik Ekstraksi

0 Halaman

0 Karakter

0 Kata

Cara Kerja

Unggah PDF: Jatuhkan atau pilih satu file PDF untuk mengekstrak teks.
Konfigurasikan Opsi: Pilih gaya pemisah halaman dan apakah akan menyertakan nomor halaman.
Ekstrak Teks: Klik "Ekstrak Teks" untuk memproses PDF dan menampilkan konten.
Unduh atau Salin: Salin teks yang diekstrak ke clipboard atau unduh sebagai file TXT.

Mengapa Mengekstrak Teks PDF?

Mengkonversi teks PDF ke teks biasa berguna untuk memproses konten dokumen, mencari dalam PDF, mengimpor data ke aplikasi lain, membuat cadangan konten teks, atau menganalisis teks dokumen. Alat ini mengekstrak semua teks sambil mempertahankan urutan baca, menjadikannya sempurna untuk laporan, makalah penelitian, kontrak, dan dokumen berat teks lainnya.

Fitur

Ekstraksi lengkap: Ekstrak semua teks dari setiap halaman PDF Anda.
Pemformatan fleksibel: Pilih pemisah halaman dan sertakan atau kecualikan nomor halaman.
Salin cepat: Salin teks yang diekstrak langsung ke clipboard dengan satu klik.
Unduh sebagai TXT: Simpan teks yang diekstrak sebagai file teks biasa untuk digunakan nanti.
Statistik: Lihat jumlah halaman, jumlah karakter, dan jumlah kata dari teks yang diekstrak.
Privasi: Semua pemrosesan terjadi secara lokal di browser Anda. File tidak pernah diunggah ke server mana pun.
Cepat: Ekstraksi instan tanpa menunggu atau antrian.

Pertanyaan yang Sering Diajukan

Bisakah saya mengekstrak teks dari PDF yang dipindai?

Alat ini mengekstrak teks dari PDF yang berisi teks yang dapat dipilih. PDF yang dipindai (berbasis gambar) tidak berisi teks yang dapat diekstrak dan akan memerlukan OCR (Pengenalan Karakter Optik), yang tidak disediakan oleh alat ini. Untuk dokumen yang dipindai, gunakan alat OCR terlebih dahulu.

Berapa batas ukuran file?

File hingga 50 MB didukung. File yang lebih besar mungkin berfungsi tergantung pada memori yang tersedia di browser Anda, tetapi ekstraksi akan lebih lambat.

Apakah alat ini mempertahankan pemformatan?

Teks yang diekstrak adalah teks biasa, jadi pemformatan seperti tebal, miring, dan warna tidak dipertahankan. Namun, konten dan urutan teks dipertahankan seakurat mungkin.

Bisakah saya mengekstrak teks di ponsel?

Ya. Alat ini berfungsi di browser desktop, tablet, dan ponsel. Cukup ketuk untuk memilih file PDF dan mengekstrak teks.

Apakah PDF saya diunggah ke server?

Tidak. Semua ekstraksi teks terjadi secara lokal di browser Anda menggunakan PDF.js. PDF Anda tidak pernah meninggalkan perangkat, memastikan privasi dan keamanan sepenuhnya.

Bisakah saya mengekstrak teks dari PDF yang dilindungi kata sandi?

Ya, jika PDF dilindungi dengan kata sandi pengguna (bukan kata sandi pemilik). Anda perlu menghapus kata sandi terlebih dahulu menggunakan alat lain, lalu mengekstrak teks dengan alat ini.

Apa itu ekstraktor teks PDF?

Ekstraktor teks PDF mengambil teks yang tertanam dari dokumen PDF ke dalam teks UTF-8 polos yang dapat Anda tempel di mana saja. Hasilnya hanya karakter: tidak ada font, tidak ada warna, tidak ada tata letak. Ini secara fundamental berbeda dari OCR (Optical Character Recognition), yang membaca piksel dari gambar dan menebak huruf apa yang mereka wakili. Ekstraksi membaca teks langsung dari aliran konten PDF, jadi itu tepat dan instan; OCR adalah perkiraan dan lambat.

Alasan ekstraksi bekerja adalah karena sebagian besar PDF menyimpan teks sebagai operator glyph yang diposisikan (Tj untuk string teks tunggal, TJ untuk array dengan penyesuaian) bersama dengan koordinat x dan y pada halaman. Ekstraktor berjalan melalui aliran konten setiap halaman, mengumpulkan setiap operator glyph dengan posisinya, dan menyatukan kembali urutan baca. Untuk prosa lurus, ini pada dasarnya sempurna. Untuk tata letak multi-kolom, catatan kaki, dan tabel kompleks, ekstraktor mengandalkan heuristik yang sebagian besar berfungsi tetapi dapat menghasilkan kejutan.

Alat ini menggunakan pdf.js, renderer PDF JavaScript yang dimulai Mozilla pada 2011 dan dikirim dengan Firefox. Semuanya berjalan di browser Anda: file PDF dimuat ke memori, diuraikan secara lokal, teks diekstrak di mesin Anda, dan hasilnya muncul di textarea yang dapat Anda salin atau unduh. Tidak ada file yang diunggah ke server. Pustaka menangani PDF 1.0 hingga PDF 2.0 (ISO 32000-2) dan sebagian besar skema enkripsi modern.

Apa yang ada di dalam alat

Bagian atas alat adalah zona drop: klik untuk memilih file PDF atau seret dari pengelola file Anda. Batas 50 MB adalah batas memori browser yang nyaman; pdf.js dapat menangani file yang lebih besar tetapi ekstraksi melambat setelah dokumen melewati beberapa ratus halaman. Segera setelah file dimuat, panel info menampilkan nama file, jumlah halaman, dan ukuran file sehingga Anda dapat mengonfirmasi bahwa Anda memilih dokumen yang tepat.

Dua opsi ekstraksi duduk di bawah info file. Sertakan nomor halaman mengaktifkan apakah nomor setiap halaman ditambahkan ke teks yang diekstrak. Pemisah halaman memungkinkan Anda memilih bagaimana halaman dibagi: bilah berlabel (--- Halaman 3 ---), baris kosong, penanda [PEMUTUS HALAMAN] eksplisit, atau tidak ada sama sekali. Opsi baris kosong terbaik untuk diimpor kembali ke alat penulisan; bilah berlabel terbaik untuk menavigasi dokumen panjang.

Klik Ekstrak Teks dan alat melewati setiap halaman, menarik konten teks, menerapkan pengaturan pemisah Anda, dan menumpahkan hasilnya ke textarea di bawah. Statistik muncul di bawah: halaman yang diproses, jumlah karakter total, jumlah kata total. Dua tombol memungkinkan Anda menyalin hasil ke clipboard atau mengunduhnya sebagai file .txt. Output adalah UTF-8 polos, siap untuk ditempel ke catatan, email, spreadsheet, atau editor kode.

Sejarah dan latar belakang

PostScript dan masalah halaman yang dapat dicetak (1982)

John Warnock dan Chuck Geschke meninggalkan Xerox PARC dan mendirikan Adobe pada 1982. Produk pertama mereka adalah PostScript, bahasa deskripsi halaman yang dapat mendeskripsikan halaman yang dapat dicetak menggunakan kumpulan kecil operator gambar: pindah, garis, kurva, isi, tempatkan glyph. PostScript memungkinkan printer manapun mereproduksi halaman manapun dengan tepat, tetapi dirancang untuk pencetakan, bukan untuk melihat atau mengedit. PostScript adalah fondasi teknis di mana PDF kemudian dibangun.

PDF 1.0 dan Acrobat (1993)

Pada 1991 Warnock mengedarkan makalah internal Adobe yang disebut Camelot yang menjelaskan format file dokumen portabel yang berasal dari PostScript tetapi dioptimalkan untuk tampilan layar dan akses halaman acak. Rilis publik pertama adalah Acrobat 1.0 dan PDF 1.0 pada 15 Juni 1993. Adopsi awal lambat: penampil mahal dan file besar. Adobe membuat Acrobat Reader gratis pada 1994 dan format lepas landas melalui akhir 1990-an untuk formulir, manual teknis, dan dokumen pemerintah.

PDF/A untuk arsip jangka panjang (2005)

PDF/A diterbitkan sebagai ISO 19005-1 pada Oktober 2005. Ini adalah subset PDF yang dibatasi yang dirancang untuk arsip: tidak ada ketergantungan eksternal (semua font tertanam), tidak ada JavaScript, tidak ada enkripsi, tidak ada audio atau video. Intinya adalah file PDF/A yang dibuka dalam 50 tahun akan terlihat persis sama dengan hari ini. Sebagian besar arsip nasional, pengadilan, dan sistem catatan perusahaan memerlukan PDF/A untuk penyimpanan jangka panjang. Ekstraksi teks dari PDF/A sangat dapat diandalkan karena format mengamanatkan peta font ToUnicode.

PDF menjadi standar ISO (2008)

Adobe menyerahkan kontrol spesifikasi PDF kepada Organisasi Internasional untuk Standardisasi pada 2008. ISO 32000-1:2008 mengkodifikasi PDF 1.7 sebagai standar internasional terbuka. Dari titik ini ke depan siapa pun dapat mengimplementasikan pembaca PDF yang sepenuhnya sesuai tanpa melisensikan PDF dari Adobe. ISO 32000-2 menyusul pada 2017 (PDF 2.0), menambahkan dukungan asli untuk fitur yang lebih baru seperti tanda tangan digital yang lebih baik dan rendering HDR.

pdf.js membuka penampil PDF dalam browser (2011)

Andreas Gal di Mozilla meluncurkan pdf.js sebagai proyek eksperimental pada pertengahan 2011 untuk merender dokumen PDF hanya menggunakan HTML5, JavaScript, dan Canvas. Sebelum pdf.js, melihat PDF di browser memerlukan plugin (plugin Adobe Reader, Foxit, atau sejenisnya). pdf.js memungkinkan tampilan PDF berbasis browser asli. Mozilla membundelnya ke Firefox 19 pada Februari 2013, menghilangkan kebutuhan akan plugin PDF apa pun. Itulah pustaka yang digunakan oleh ekstraktor ini.

Chrome mengirim PDFium (2014)

Google membuka sumber PDFium pada Mei 2014. PDFium adalah mesin PDF yang berbeda, berasal dari SDK PDF Foxit komersial, dan itulah yang memberdayakan rendering PDF di dalam Chrome dan Edge. PDFium ditulis dalam C++; pdf.js ditulis dalam JavaScript. Dari sudut pandang ekstraksi, kedua mesin menghasilkan teks yang serupa, tetapi dukungan PDF/A dan penanganan formulir bervariasi. Alat ini menggunakan pdf.js karena berjalan secara native di browser manapun tanpa plugin atau biner yang dikompilasi.

Alur kerja praktis

Mengekstrak kutipan dari makalah penelitian

Jatuhkan PDF, klik Ekstrak, gulir untuk menemukan bagian yang Anda inginkan, dan salin ke catatan atau pengelola kutipan Anda. Makalah kolom tunggal keluar dengan bersih. Makalah dua kolom (khas dari gaya konferensi dan jurnal) dapat menyelingkan teks dari kolom kiri dan kanan; dalam kasus itu salin setiap kolom secara manual daripada mengandalkan ekstraksi global. Untuk kutipan panjang, lebih suka pemisah halaman baris kosong sehingga jeda paragraf bertahan.

Mencari klausa tertentu dalam kontrak

Kontrak hukum sering ratusan halaman dan pencarian bawaan pembaca PDF kehilangan konteks. Ekstrak teks lengkap, tempel ke editor teks, dan gunakan Find atau grep dengan jendela konteks yang lebih lebar (5 baris sebelum dan sesudah). Ini lebih cepat daripada menggulir dan memungkinkan Anda menulis ekspresi reguler untuk pola seperti semua klausa yang menyebutkan tanggung jawab atau pengakhiran. Pertahankan pemisah halaman berlabel sehingga Anda dapat menemukan lokasi aslinya di PDF.

Teks massal untuk proyek penulisan atau terjemahan

Ketika Anda perlu menerjemahkan, menulis ulang, atau merangkum dokumen PDF panjang, langkah pertama adalah mendapatkan teks mentah. Ekstrak sekali, simpan file .txt, dan kerjakan dari sana. Hindari menyalin langsung dari pembaca PDF, yang sering memperkenalkan jeda baris di tempat yang salah dan memecah kata di seluruh batas halaman. Pemisah baris kosong bekerja dengan baik sebagai input ke alat terjemahan atau LLM.

Menarik tanda terima ke spreadsheet

Tanda terima dan faktur modern yang dikirim melalui email sering kali PDF dengan teks tertanam daripada pemindaian. Ekstrak, kemudian parse total dengan ekspresi reguler. Untuk format berulang (satu vendor yang mengirim tata letak faktur yang sama setiap bulan), skrip lima baris dapat menarik bidang tanggal, total, dan pajak ke spreadsheet secara otomatis. Tanda terima yang dipindai tidak akan berfungsi; itu memerlukan OCR terlebih dahulu.

Membaca ebook di perangkat yang salah

PDF adalah format yang buruk untuk pembaca elektronik karena ukuran halaman tetap; teks tidak mengalir kembali. Ekstrak teks, tempel ke pengonversi EPUB, dan sekarang buku mengalir kembali di layar manapun. Nomor halaman dan catatan kaki dapat dihapus secara manual sebelum konversi. Trik ini paling berguna untuk buku teknis dan proseding konferensi yang diterbitkan penerbit hanya sebagai PDF.

Berbagi notulen rapat sebagai teks polos

Ketika seorang kolega mengirim email notulen rapat sebagai PDF dan Anda ingin menempelkan ringkasan ke Slack atau wiki, ekstrak terlebih dahulu. Teks keluar dengan bersih dan Anda dapat menempelkan bagian manapun tanpa artefak font aneh atau pemformatan tersembunyi. Untuk notulen dengan item tindakan, pemisah bilah berlabel membantu menemukan bagian dokumen asli jika pertanyaan muncul kemudian.

Jebakan umum

PDF yang dipindai menghasilkan output kosong

Jika PDF dibuat dengan memindai dokumen kertas (pemindaian flatbed, foto telepon, atau output mesin fotokopi), itu berisi gambar halaman, bukan teks dasarnya. Ekstraktor berjalan melalui aliran konten mencari operator teks dan tidak menemukan apa pun, sehingga output kosong atau hanya berisi nomor halaman yang tersesat jika itu diketik secara manual. Perbaikannya adalah menjalankan PDF melalui OCR terlebih dahulu (alat seperti Tesseract, Recognize Text Adobe Acrobat, atau ABBYY FineReader), yang menambahkan lapisan teks tersembunyi yang kemudian dapat diekstrak oleh alat ini.

Tata letak multi-kolom dapat menyelingkan teks

Jurnal akademis, majalah, dan surat kabar biasanya menggunakan dua atau tiga kolom per halaman. pdf.js mengekstrak setiap proses teks berdasarkan posisinya pada halaman dan menggunakan heuristik untuk merekonstruksi urutan baca, tetapi heuristik tersebut mengasumsikan aliran kolom tunggal. Hasil untuk halaman multi-kolom dapat berupa: baris pertama kolom kiri, baris pertama kolom kanan, baris kedua kolom kiri, dan seterusnya. Untuk tata letak ini, ekstrak satu halaman pada satu waktu dan pilih kolom dengan mata, atau gunakan alat yang sadar tata letak seperti pustaka python pdfplumber.

Pengkodean font khusus menghasilkan omong kosong

PDF dapat menggunakan font apa pun, dan font dapat memetakan ID glyph-nya ke kode karakter apa pun yang dipilih penulis. PDF/A dan sebagian besar PDF modern menyertakan peta ToUnicode yang mengatakan glyph 5 berarti huruf A, tetapi PDF yang lebih lama atau ceroboh terkadang melewatkan peta. Tanpa ToUnicode, teks yang diekstrak adalah ID glyph mentah (sering muncul sebagai kotak, angka, atau huruf acak), dan tidak ada cara untuk memulihkan karakter asli tanpa OCR. Jika hanya kata-kata tertentu yang terlihat salah, penyebabnya biasanya adalah ToUnicode yang hilang untuk satu font yang tertanam.

Ligatur dapat diekstrak sebagai karakter gabungan

Tipografi profesional menggabungkan pasangan huruf tertentu (fi, fl, ff, ffi) menjadi glyph tunggal yang disebut ligatur. PDF dapat menyimpan ligatur sebagai codepoint Unicode U+FB01 (ligatur fi) daripada dua huruf f dan i. Teks yang diekstrak berisi codepoint ligatur, yang sebagian besar editor merender dengan benar tetapi beberapa alat pemrosesan teks tersedak. Jika Anda memberi makan output ke indeks pencarian atau alat bahasa alami, jalankan penggantian satu baris untuk menormalkan U+FB01 ke fi dan U+FB02 ke fl.

Header dan footer berulang di setiap halaman

Sebagian besar PDF memiliki header yang berjalan (judul bab, judul dokumen) dan footer (nomor halaman, baris hak cipta) di setiap halaman. Ekstraktor mengambilnya karena mereka adalah teks nyata pada halaman, dan Anda berakhir dengan baris yang sama berulang 200 kali dalam dokumen 200 halaman. Perbaikannya adalah skrip deduplikasi sederhana atau lulus find-and-replace manual setelah ekstraksi. Untuk dokumen panjang, ini terkadang langkah pembersihan terbesar.

Persamaan matematika dan rumus jarang diekstrak dengan bersih

Matematika diposisikan menggunakan glyph individu dari font simbol khusus (Computer Modern, STIX). Ekstraktor membaca glyph tetapi kehilangan hubungan spasial yang membuat x kuadrat berbeda dari x kali 2. Persamaan inline seperti E sama dengan mc kuadrat keluar kacau, dan persamaan tampilan keluar sebagai urutan simbol yang diacak. Untuk PDF yang berat dengan matematika, gunakan alat yang menjaga struktur persamaan (MathPix snip, Adobe Acrobat Pro dengan alur ulang persamaan), atau ekstrak persamaan sebagai gambar.

Privasi dan penanganan data

File PDF yang Anda jatuhkan ke alat tetap di perangkat Anda sepanjang waktu. pdf.js adalah pustaka JavaScript yang berjalan di browser Anda, bukan di server jarak jauh. File dimuat ke memori oleh browser Anda, diuraikan halaman demi halaman, dan teks yang diekstrak muncul di textarea di halaman yang sama. Kami tidak pernah mengunggah file, tidak pernah mencatat isinya, dan tidak pernah menganalisisnya. Ini penting karena PDF sering berisi informasi rahasia: kontrak, catatan medis, korespondensi hukum, laporan keuangan.

Setelah halaman dimuat, alat berfungsi offline. Anda dapat memutuskan koneksi dari internet, menjatuhkan PDF, mengekstraknya, dan menyalin hasilnya tanpa data Anda pernah menyentuh mesin lain. Teks yang diekstrak hanya meninggalkan mesin Anda jika Anda memilih untuk menempelkan atau mengirimnya sendiri ke suatu tempat. Banyak ekstraktor PDF SaaS mengirim file Anda ke layanan cloud untuk diproses; untuk dokumen sensitif itulah persis yang ingin Anda hindari.

Kapan tidak menggunakan alat ini

PDF yang dipindai atau hanya gambar (butuh OCR terlebih dahulu)

Jika PDF Anda adalah pemindaian kertas atau serangkaian foto, tidak ada teks tertanam untuk diekstrak; alat ini mengembalikan hasil kosong. Jalankan PDF melalui mesin OCR terlebih dahulu untuk menambahkan lapisan teks: Tesseract (gratis, baris perintah, sangat baik untuk bahasa Inggris dan aksara Latin), Adobe Acrobat Pro (berbayar, retensi tata letak terbaik), atau ABBYY FineReader (berbayar, terbaik untuk aksara non-Latin dan dokumen kompleks). Setelah OCR, ekstraktor ini akan bekerja secara normal.

Formulir PDF yang dapat diisi dengan nilai bidang

Formulir PDF menyimpan nilai bidang (teks yang Anda ketik ke dalam bidang nama, status terpilih dari kotak centang) secara terpisah dari teks halaman statis. Ekstraktor ini hanya membaca teks halaman statis, sehingga nilai formulir terlewatkan. Untuk mengekstrak data formulir, gunakan pustaka formulir PDF yang membaca kamus AcroForm atau XFA secara langsung (pdftk, Adobe Acrobat Export Data, atau API bidang formulir python-pdfplumber).

Ketika Anda perlu menjaga pemformatan

Teks polos kehilangan semua pemformatan: tebal, miring, daftar, tabel, judul, warna, font. Jika Anda memerlukan dokumen yang dapat diedit yang menjaga tata letak, gunakan konverter PDF-ke-Word sebagai gantinya (yang membangun dokumen Word terstruktur dengan gaya paragraf dan tabel), atau PDF-ke-HTML untuk output ramah web. PDF-ke-teks adalah untuk kasus di mana Anda benar-benar hanya membutuhkan kata-kata.

PDF terenkripsi tanpa kata sandi

PDF dapat dienkripsi dengan kata sandi pengguna (diperlukan untuk membuka file) atau kata sandi pemilik (membatasi tindakan seperti pencetakan atau penyalinan). pdf.js memerlukan kata sandi pengguna untuk membuka file terenkripsi; tanpanya, tidak ada ekstraksi yang mungkin. Hapus kata sandi terlebih dahulu dengan alat buka kunci PDF (hanya pada dokumen yang Anda memiliki hak untuk mengakses) dan kemudian ekstrak. Kata sandi pemilik terkadang memblokir penyalinan di dalam Adobe Reader tetapi tidak memblokir ekstraksi di sini.

Pertanyaan lainnya

Apa itu lapisan teks PDF?

Lapisan teks adalah bagian dari PDF yang menyimpan karakter sebagai teks yang dapat dibaca mesin (operator Tj dan TJ di aliran konten) daripada sebagai piksel. PDF digital yang dibuat oleh Word, LaTeX, atau alat web-ke-PDF selalu memiliki lapisan teks. PDF yang dipindai tidak, sampai Anda menambahkan satu dengan OCR. Lapisan teks adalah yang memungkinkan pencarian, salin-tempel, pembaca layar, dan alat seperti ekstraktor ini bekerja.

Mengapa beberapa teks yang saya ekstrak diacak atau tidak berurutan?

PDF tidak menyimpan teks dalam urutan baca; mereka menyimpannya sebagai operator glyph di posisi x dan y pada halaman. Ekstraktor merekonstruksi urutan baca dengan mengurutkan atas ke bawah dan kiri ke kanan dalam baris. Ini bekerja untuk aliran kolom tunggal tetapi dapat menyelingkan kolom, mencampur header dengan teks tubuh, atau memecah paragraf di pemutus kolom. Untuk tata letak kompleks, coba salin halaman demi halaman atau gunakan pustaka Python yang sadar tata letak seperti pdfplumber.

Bisakah saya mengekstrak teks dari PDF yang panjangnya ratusan halaman?

Ya, tetapi harapkan waktu lebih lama dan penggunaan memori lebih banyak. Setiap halaman diuraikan secara berurutan di JavaScript, yang single-thread, jadi buku 500 halaman mungkin membutuhkan 20 hingga 60 detik tergantung pada mesin Anda dan kompleksitas halaman. Plafon memori browser (beberapa GB untuk Chrome desktop, lebih sedikit untuk seluler) membatasi ukuran file total lebih dari jumlah halaman. Jika PDF raksasa hang, coba bagi terlebih dahulu dengan alat pemisah PDF dan ekstrak dalam potongan.

Apa itu PDF/A dan mengapa teksnya lebih mudah diekstrak?

PDF/A adalah subset arsip dari PDF yang didefinisikan oleh ISO 19005. Membutuhkan semua font tertanam dengan peta ToUnicode, semua profil warna mandiri, dan tidak ada sumber daya eksternal yang direferensikan. Persyaratan ToUnicode adalah yang membuat ekstraksi dapat diandalkan: setiap glyph dalam dokumen memetakan kembali ke karakter Unicode standar. Arsip nasional, pengadilan, dan sistem catatan perusahaan menggunakan PDF/A persis sehingga teks tetap dapat diekstrak puluhan tahun kemudian.

Seberapa akurat ekstraksi dibandingkan dengan Adobe Acrobat?

Untuk PDF digital sederhana, outputnya identik karakter demi karakter. Acrobat memiliki heuristik yang lebih canggih untuk menangani tata letak multi-kolom dan tabel yang kompleks, jadi untuk kasus-kasus spesifik tersebut outputnya mungkin lebih mudah dibaca. pdf.js (alat ini) telah dikembangkan secara aktif sejak 2011 dan sekarang lolos sebagian besar tes kepatuhan spesifikasi PDF. Untuk dokumen kantor dan penelitian khas, perbedaannya tidak signifikan.

Apakah alat mendukung aksara non-Latin (Cina, Arab, Sirilik)?

Ya, asalkan PDF memiliki peta ToUnicode yang tepat untuk karakter tersebut (yang dimiliki setiap PDF modern). Teks yang diekstrak adalah UTF-8 dan dirender dengan benar di editor modern manapun. Aksara dari kanan ke kiri seperti Arab dan Ibrani diekstrak dalam urutan logis, bukan urutan visual, yang merupakan apa yang Anda inginkan untuk pemrosesan lebih lanjut. Ekstraksi CJK (Cina, Jepang, Korea) sepenuhnya didukung karena pdf.js menangani sistem CIDFont yang digunakan PDF untuk aksara tersebut.