Convertitore da PDF a testo gratuito
Estrai istantaneamente tutto il contenuto testuale dai file PDF. Scarica come TXT o copia negli appunti. I tuoi file non lasciano mai il tuo dispositivo.
Supporta PDF · fino a 50 MB
Come funziona
- Carica PDF: Rilascia o seleziona un singolo file PDF da cui estrarre il testo.
- Configura le opzioni: Scegli lo stile del separatore di pagina e se includere i numeri di pagina.
- Estrai il testo: Fai clic su "Estrai testo" per elaborare il PDF e visualizzare il contenuto.
- Scarica o copia: Copia il testo estratto negli appunti o scaricalo come file TXT.
Perché estrarre il testo dal PDF?
Convertire il testo PDF in testo semplice è utile per elaborare il contenuto dei documenti, cercare all'interno dei PDF, importare dati in altre applicazioni, creare backup del contenuto testuale o analizzare il testo dei documenti. Questo strumento estrae tutto il testo preservando l'ordine di lettura, rendendolo perfetto per relazioni, articoli di ricerca, contratti e altri documenti ricchi di testo.
Caratteristiche
- Estrazione completa: Estrai tutto il testo da ogni pagina del tuo PDF.
- Formattazione flessibile: Scegli separatori di pagina e includi o escludi i numeri di pagina.
- Copia rapida: Copia il testo estratto direttamente negli appunti con un solo clic.
- Scarica come TXT: Salva il testo estratto come file di testo semplice per un uso successivo.
- Statistiche: Visualizza il numero di pagine, caratteri e parole del testo estratto.
- Privacy: Tutta l'elaborazione avviene localmente nel tuo browser. I file non vengono mai caricati su alcun server.
- Veloce: Estrazione istantanea senza attese o code.
Domande frequenti
Posso estrarre testo da PDF scansionati?
Questo strumento estrae testo dai PDF che contengono testo selezionabile. I PDF scansionati (basati su immagini) non contengono testo estraibile e richiederebbero l'OCR (riconoscimento ottico dei caratteri), che questo strumento non fornisce. Per i documenti scansionati, utilizza prima uno strumento di OCR.
Qual è il limite di dimensione del file?
Sono supportati file fino a 50 MB. I file più grandi possono funzionare a seconda della memoria disponibile del browser, ma l'estrazione sarà più lenta.
Lo strumento conserva la formattazione?
Il testo estratto è testo semplice, quindi la formattazione come grassetto, corsivo e colori non viene conservata. Tuttavia, il contenuto e l'ordine del testo vengono mantenuti nel modo più accurato possibile.
Posso estrarre testo da mobile?
Sì. Questo strumento funziona su browser desktop, tablet e mobile. Tocca semplicemente per selezionare un file PDF ed estrarre il testo.
Il mio PDF viene caricato su un server?
No. Tutta l'estrazione del testo avviene localmente nel tuo browser utilizzando PDF.js. Il tuo PDF non lascia mai il tuo dispositivo, garantendo completa privacy e sicurezza.
Posso estrarre testo da PDF protetti da password?
Sì, se il PDF è protetto con una password utente (non una password proprietario). Dovresti prima rimuovere la password usando un altro strumento, quindi estrarre il testo con questo.
Cos'è un estrattore di testo da PDF?
Un estrattore di testo da PDF estrae il testo incorporato da un documento PDF in testo UTF-8 semplice che puoi incollare ovunque. Il risultato sono solo i caratteri: nessun font, nessun colore, nessun layout. Questo è fondamentalmente diverso dall'OCR (Optical Character Recognition), che legge i pixel da un'immagine e indovina quali lettere rappresentano. L'estrazione legge il testo direttamente dal content stream del PDF, quindi è esatta e istantanea; l'OCR è approssimativo e lento.
Il motivo per cui l'estrazione funziona è che la maggior parte dei PDF memorizza il testo come operatori di glifo posizionati (Tj per stringhe di testo singole, TJ per array con regolazioni) insieme alle coordinate x e y sulla pagina. L'estrattore percorre il content stream di ogni pagina, raccoglie ogni operatore di glifo con la sua posizione e riassembla l'ordine di lettura. Per la prosa lineare questo è essenzialmente perfetto. Per layout multi colonna, note a piè di pagina e tabelle complesse l'estrattore si affida a euristiche che funzionano per lo più ma possono produrre sorprese.
Questo strumento usa pdf.js, il renderer PDF JavaScript che Mozilla ha avviato nel 2011 e che spedisce con Firefox. Tutto gira nel tuo browser: il file PDF viene caricato in memoria, analizzato localmente, il testo viene estratto sulla tua macchina, e il risultato appare in una textarea che puoi copiare o scaricare. Nessun file viene caricato su un server. La libreria gestisce PDF da 1.0 a PDF 2.0 (ISO 32000-2) e la maggior parte degli schemi di crittografia moderni.
Cosa c'è dentro lo strumento
La parte superiore dello strumento è una zona di drop: clicca per scegliere un file PDF o trascinane uno dal tuo gestore file. Il limite di 50 MB è un comodo limite di memoria del browser; pdf.js può gestire file più grandi ma l'estrazione rallenta una volta che il documento supera le poche centinaia di pagine. Non appena un file è caricato, un pannello informativo mostra il nome del file, il conteggio delle pagine e la dimensione del file in modo da confermare di aver scelto il documento giusto.
Due opzioni di estrazione si trovano sotto le informazioni del file. Includi numeri di pagina commuta se il numero di ogni pagina viene anteposto al testo estratto. Separatore di pagina ti permette di scegliere come le pagine sono divise: una barra etichettata (--- Pagina 3 ---), una riga vuota, un marcatore esplicito [INTERRUZIONE DI PAGINA] o nulla affatto. L'opzione riga vuota è la migliore per reimportare in uno strumento di scrittura; la barra etichettata è la migliore per navigare in documenti lunghi.
Clicca Estrai Testo e lo strumento scorre ogni pagina, estrae il contenuto del testo, applica la tua impostazione del separatore e scarica il risultato nella textarea sottostante. Le statistiche appaiono sotto: pagine elaborate, conteggio totale dei caratteri, conteggio totale delle parole. Due pulsanti ti permettono di copiare il risultato negli appunti o scaricarlo come file .txt. L'output è UTF-8 semplice, pronto da incollare in una nota, un'email, un foglio di calcolo o un editor di codice.
Storia e contesto
PostScript e il problema della pagina stampabile (1982)
John Warnock e Chuck Geschke lasciarono Xerox PARC e fondarono Adobe nel 1982. Il loro primo prodotto fu PostScript, un linguaggio di descrizione di pagina che poteva descrivere qualsiasi pagina stampabile usando un piccolo set di operatori di disegno: muovi, linea, curva, riempi, posiziona glifo. PostScript permise a qualsiasi stampante di riprodurre esattamente qualsiasi pagina, ma fu progettato per la stampa, non per la visualizzazione o la modifica. PostScript è la fondazione tecnica su cui in seguito fu costruito il PDF.
PDF 1.0 e Acrobat (1993)
Nel 1991 Warnock fece circolare un documento interno di Adobe chiamato Camelot che descriveva un formato di file di documenti portabile derivato da PostScript ma ottimizzato per la visualizzazione a schermo e l'accesso casuale alle pagine. La prima versione pubblica fu Acrobat 1.0 e PDF 1.0 il 15 giugno 1993. L'adozione iniziale fu lenta: i visualizzatori costavano denaro e i file erano grandi. Adobe rese Acrobat Reader gratuito nel 1994 e il formato decollò alla fine degli anni 1990 per moduli, manuali tecnici e documenti governativi.
PDF/A per archivi a lungo termine (2005)
PDF/A fu pubblicato come ISO 19005-1 nell'ottobre 2005. È un sottoinsieme limitato di PDF progettato per l'archiviazione: nessuna dipendenza esterna (tutti i font incorporati), nessun JavaScript, nessuna crittografia, nessun audio o video. Il punto è che un file PDF/A aperto tra 50 anni avrà esattamente lo stesso aspetto di oggi. La maggior parte degli archivi nazionali, dei tribunali e dei sistemi di registrazione aziendali richiede PDF/A per la memorizzazione a lungo termine. L'estrazione del testo da PDF/A è insolitamente affidabile perché il formato impone mappe di font ToUnicode.
PDF diventa uno standard ISO (2008)
Adobe consegnò il controllo della specifica PDF all'International Organization for Standardization nel 2008. ISO 32000-1:2008 codificò PDF 1.7 come standard internazionale aperto. Da questo punto in poi chiunque poteva implementare un lettore PDF completamente conforme senza concedere in licenza PDF da Adobe. ISO 32000-2 seguì nel 2017 (PDF 2.0), aggiungendo il supporto nativo per funzionalità più recenti come firme digitali migliori e rendering HDR.
pdf.js apre il visualizzatore PDF nel browser (2011)
Andreas Gal di Mozilla lanciò pdf.js come progetto sperimentale a metà del 2011 per renderizzare documenti PDF usando solo HTML5, JavaScript e Canvas. Prima di pdf.js, visualizzare un PDF in un browser richiedeva un plugin (Adobe Reader plugin, Foxit o simili). pdf.js rese possibile la visualizzazione PDF nativa basata su browser. Mozilla lo integrò in Firefox 19 nel febbraio 2013, rimuovendo la necessità di qualsiasi plugin PDF. È la libreria che questo estrattore usa.
Chrome distribuisce PDFium (2014)
Google rese open source PDFium nel maggio 2014. PDFium è un motore PDF diverso, derivato dal Foxit PDF SDK commerciale, ed è ciò che alimenta il rendering PDF dentro Chrome ed Edge. PDFium è scritto in C++; pdf.js è scritto in JavaScript. Da un punto di vista dell'estrazione entrambi i motori producono testo simile, ma il supporto PDF/A e la gestione dei moduli variano. Questo strumento usa pdf.js perché gira nativamente in qualsiasi browser senza plugin o binari compilati.
Flussi pratici
Estrarre citazioni da un articolo di ricerca
Rilascia il PDF, clicca Estrai, scorri per trovare il passaggio che vuoi, e copialo nelle tue note o nel gestore di citazioni. Gli articoli a colonna singola escono puliti. Gli articoli a doppia colonna (tipici dello stile delle conferenze e delle riviste) possono interlacciare il testo dalle colonne sinistra e destra; in tal caso copia ogni colonna manualmente piuttosto che affidarti all'estrazione globale. Per citazioni lunghe, preferisci il separatore di pagina a riga vuota così che le interruzioni di paragrafo sopravvivano.
Cercare clausole specifiche in un contratto
I contratti legali sono spesso di centinaia di pagine e la ricerca integrata del lettore PDF perde il contesto. Estrai il testo completo, incolla in un editor di testo e usa Trova o grep con una finestra di contesto più ampia (5 righe prima e dopo). Questo è più veloce dello scorrere e ti permette di scrivere un'espressione regolare per pattern come tutte le clausole che menzionano responsabilità o cessazione. Mantieni il separatore di pagina etichettato così puoi localizzare la posizione originale nel PDF.
Testo in massa per un progetto di scrittura o traduzione
Quando hai bisogno di tradurre, riscrivere o riassumere un lungo documento PDF, il primo passo è estrarre il testo grezzo. Estrai una volta, salva il file .txt e lavora da lì. Evita di copiare direttamente da un lettore PDF, che spesso introduce interruzioni di riga nei posti sbagliati e rompe le parole attraverso i confini delle pagine. Il separatore a riga vuota funziona bene come input per uno strumento di traduzione o un LLM.
Estrarre ricevute in un foglio di calcolo
Ricevute e fatture moderne inviate via email sono spesso PDF con testo incorporato piuttosto che scansioni. Estrai, poi analizza i totali con un'espressione regolare. Per formati ripetuti (un fornitore che invia lo stesso layout di fattura ogni mese), uno script di cinque righe può tirare automaticamente i campi data, totale e tasse in un foglio di calcolo. Le ricevute scansionate non funzioneranno; quelle richiedono prima l'OCR.
Leggere ebook sul dispositivo sbagliato
Il PDF è un formato scadente per gli e-reader perché la dimensione della pagina è fissa; il testo non riflua. Estrai il testo, incolla in un convertitore EPUB, e ora il libro riflua su qualsiasi schermo. I numeri di pagina e le note a piè di pagina possono essere rimossi manualmente prima della conversione. Questo trucco è più utile per libri tecnici e atti di conferenze che gli editori rilasciano solo come PDF.
Condividere i verbali di una riunione come testo semplice
Quando un collega invia per email i verbali di una riunione come PDF e vuoi incollare un riassunto in Slack o in un wiki, estrai prima. Il testo esce pulito e puoi incollare qualsiasi porzione senza strani artefatti di font o formattazione nascosta. Per i verbali con elementi d'azione, il separatore a barra etichettata aiuta a localizzare la sezione del documento originale se sorgono domande in seguito.
Insidie comuni
I PDF scansionati producono output vuoto
Se un PDF è stato creato scansionando un documento cartaceo (una scansione piana, una foto con il telefono o un output di fotocopiatrice), contiene un'immagine della pagina, non il testo sottostante. L'estrattore percorre il content stream cercando operatori di testo e non ne trova nessuno, quindi l'output è vuoto o contiene solo numeri di pagina occasionali se sono stati digitati manualmente. La soluzione è eseguire prima il PDF attraverso l'OCR (strumenti come Tesseract, Recognize Text di Adobe Acrobat o ABBYY FineReader), che aggiunge un livello di testo nascosto che questo strumento può poi estrarre.
I layout multi colonna possono interlacciare il testo
Riviste accademiche, magazine e giornali usano tipicamente due o tre colonne per pagina. pdf.js estrae ogni esecuzione di testo per la sua posizione sulla pagina e usa euristiche per ricostruire l'ordine di lettura, ma quelle euristiche assumono un flusso a colonna singola. Il risultato per una pagina multi colonna può essere: prima riga della colonna sinistra, prima riga della colonna destra, seconda riga della colonna sinistra, e così via. Per questi layout, estrai una pagina alla volta e seleziona le colonne a occhio, o usa uno strumento consapevole del layout come la libreria python pdfplumber.
Le codifiche di font personalizzate producono testo incomprensibile
Un PDF può usare qualsiasi font, e il font può mappare i suoi ID di glifo a qualsiasi codice di carattere scelga l'autore. PDF/A e la maggior parte dei PDF moderni includono una mappa ToUnicode che dice che il glifo 5 significa la lettera A, ma PDF più vecchi o sciatti a volte saltano la mappa. Senza ToUnicode, il testo estratto sono gli ID di glifo grezzi (spesso che appaiono come riquadri, numeri o lettere casuali), e non c'è modo di recuperare i caratteri originali senza OCR. Se solo parole specifiche sembrano sbagliate, la causa è solitamente una ToUnicode mancante per un singolo font incorporato.
Le legature possono estrarsi come caratteri combinati
La tipografia professionale combina certe coppie di lettere (fi, fl, ff, ffi) in singoli glifi chiamati legature. Il PDF può memorizzare la legatura come codepoint Unicode U+FB01 (la legatura fi) piuttosto che le due lettere f e i. Il testo estratto contiene il codepoint della legatura, che la maggior parte degli editor rende correttamente ma alcuni strumenti di elaborazione del testo soffocano. Se stai alimentando l'output in un indice di ricerca o uno strumento di linguaggio naturale, esegui una sostituzione di una riga per normalizzare U+FB01 a fi e U+FB02 a fl.
Intestazioni e piè di pagina si ripetono su ogni pagina
La maggior parte dei PDF ha un'intestazione corrente (titolo del capitolo, titolo del documento) e un piè di pagina (numero di pagina, riga di copyright) su ogni pagina. L'estrattore li raccoglie perché sono testo reale sulla pagina, e finisci con la stessa riga che si ripete 200 volte in un documento di 200 pagine. La soluzione è un semplice script di deduplicazione o un passaggio manuale di trova e sostituisci dopo l'estrazione. Per documenti lunghi, questo è a volte il più grande passo di pulizia.
Equazioni matematiche e formule raramente si estraggono pulite
La matematica è posizionata usando glifi individuali da font di simboli speciali (Computer Modern, STIX). L'estrattore legge i glifi ma perde le relazioni spaziali che fanno sì che x al quadrato sia diverso da x per 2. Le equazioni inline come E uguale a mc al quadrato escono distorte, e le equazioni di visualizzazione escono come sequenze di simboli scrambled. Per PDF ricchi di matematica, usa uno strumento che preserva la struttura delle equazioni (MathPix snip, Adobe Acrobat Pro con riflusso delle equazioni), o estrai le equazioni come immagini.
Privacy e gestione dei dati
Il file PDF che rilasci nello strumento rimane sul tuo dispositivo per tutto il tempo. pdf.js è una libreria JavaScript che gira nel tuo browser, non su un server remoto. Il file viene caricato in memoria dal tuo browser, analizzato pagina per pagina, e il testo estratto appare nella textarea sulla stessa pagina. Non carichiamo mai il file, non registriamo mai i suoi contenuti e non lo analizziamo mai. Questo conta perché i PDF spesso contengono informazioni confidenziali: contratti, cartelle cliniche, corrispondenza legale, estratti finanziari.
Una volta caricata la pagina, lo strumento funziona offline. Puoi disconnetterti da internet, rilasciare un PDF, estrarlo e copiare il risultato senza che i tuoi dati tocchino mai un'altra macchina. Il testo estratto lascia la tua macchina solo se scegli di incollarlo o inviarlo da qualche parte tu stesso. Molti estrattori PDF SaaS inviano il tuo file a un servizio cloud per l'elaborazione; per documenti sensibili questo è esattamente ciò che vuoi evitare.
Quando non usare questo strumento
PDF scansionati o solo immagine (servono prima OCR)
Se il tuo PDF è una scansione di carta o una serie di foto, non c'è testo incorporato da estrarre; questo strumento restituisce risultati vuoti. Esegui il PDF prima attraverso un motore OCR per aggiungere un livello di testo: Tesseract (gratuito, riga di comando, molto buono per inglese e script latini), Adobe Acrobat Pro (a pagamento, migliore ritenzione del layout) o ABBYY FineReader (a pagamento, migliore per script non latini e documenti complessi). Dopo l'OCR, questo estrattore funzionerà normalmente.
Moduli PDF compilabili con valori dei campi
Un modulo PDF memorizza i valori dei campi (il testo che hai digitato in un campo nome, lo stato selezionato di una casella di controllo) separatamente dal testo statico della pagina. Questo estrattore legge solo il testo statico della pagina, quindi i valori del modulo vengono persi. Per estrarre i dati del modulo, usa una libreria di moduli PDF che legge direttamente il dizionario AcroForm o XFA (pdftk, Adobe Acrobat Export Data o l'API dei campi modulo di python-pdfplumber).
Quando hai bisogno di preservare la formattazione
Il testo semplice perde tutta la formattazione: grassetto, corsivo, elenchi, tabelle, intestazioni, colori, font. Se hai bisogno di un documento modificabile che preserva il layout, usa invece un convertitore PDF a Word (che costruisce un documento Word strutturato con stili di paragrafo e tabelle), o PDF a HTML per output web friendly. PDF a testo è per il caso in cui hai veramente bisogno solo delle parole.
PDF crittografati senza la password
I PDF possono essere crittografati con una password utente (richiesta per aprire il file) o una password proprietario (limita azioni come stampa o copia). pdf.js richiede la password utente per aprire un file crittografato; senza di essa, non è possibile alcuna estrazione. Rimuovi prima la password con uno strumento di sblocco PDF (solo su documenti che hai il diritto di accedere) e poi estrai. La password proprietario a volte blocca la copia dentro Adobe Reader ma non blocca l'estrazione qui.
Altre domande
Cos'è un livello di testo PDF?
Un livello di testo è la parte di un PDF che memorizza i caratteri come testo leggibile dalla macchina (operatori Tj e TJ nel content stream) piuttosto che come pixel. I PDF digitali creati da Word, LaTeX o strumenti web-to-PDF hanno sempre un livello di testo. I PDF scansionati no, finché non ne aggiungi uno con l'OCR. Il livello di testo è ciò che permette a ricerca, copia incolla, lettori di schermo e strumenti come questo estrattore di funzionare.
Perché parte del mio testo estratto è scrambled o fuori ordine?
I PDF non memorizzano il testo in ordine di lettura; lo memorizzano come operatori di glifo in posizioni x e y sulla pagina. L'estrattore ricostruisce l'ordine di lettura ordinando dall'alto verso il basso e da sinistra a destra all'interno delle righe. Questo funziona per il flusso a colonna singola ma può interlacciare le colonne, mischiare intestazioni con il corpo del testo o dividere i paragrafi alle interruzioni di colonna. Per layout complessi, prova a copiare pagina per pagina o usa una libreria Python consapevole del layout come pdfplumber.
Posso estrarre testo da un PDF di centinaia di pagine?
Sì, ma aspettati che ci voglia più tempo e usi più memoria. Ogni pagina viene analizzata sequenzialmente in JavaScript, che è a thread singolo, quindi un libro di 500 pagine potrebbe richiedere da 20 a 60 secondi a seconda della tua macchina e della complessità delle pagine. Il tetto di memoria del browser (alcuni GB per Chrome desktop, meno per mobile) limita la dimensione totale del file più del conteggio delle pagine. Se un PDF gigante si blocca, prova prima a dividerlo con lo strumento di divisione PDF ed estrai in pezzi.
Cos'è PDF/A e perché il suo testo è più facile da estrarre?
PDF/A è il sottoinsieme archivistico di PDF definito da ISO 19005. Richiede che tutti i font siano incorporati con una mappa ToUnicode, che tutti i profili di colore siano autonomi e che non vengano referenziate risorse esterne. Il requisito ToUnicode è ciò che rende l'estrazione affidabile: ogni glifo nel documento si mappa a un carattere Unicode standard. Archivi nazionali, tribunali e sistemi di registrazione aziendali usano PDF/A precisamente affinché il testo rimanga estraibile decenni dopo.
Quanto è accurata l'estrazione rispetto ad Adobe Acrobat?
Per PDF digitali semplici l'output è identico carattere per carattere. Acrobat ha euristiche più sofisticate per gestire layout multi colonna complessi e tabelle, quindi per quei casi specifici il suo output può essere più leggibile. pdf.js (questo strumento) è stato attivamente sviluppato dal 2011 e ora passa la maggior parte dei test di conformità della specifica PDF. Per i tipici documenti d'ufficio e di ricerca la differenza è trascurabile.
Lo strumento supporta script non latini (cinese, arabo, cirillico)?
Sì, a condizione che il PDF abbia una mappa ToUnicode appropriata per quei caratteri (cosa che qualsiasi PDF moderno ha). Il testo estratto è UTF-8 e si rende correttamente in qualsiasi editor moderno. Gli script da destra a sinistra come arabo ed ebraico vengono estratti in ordine logico, non in ordine visivo, che è ciò che vuoi per ulteriore elaborazione. L'estrazione CJK (cinese, giapponese, coreano) è completamente supportata perché pdf.js gestisce il sistema CIDFont che il PDF usa per quegli script.