Editor di pagine PDF gratuito online
Elimina le pagine indesiderate e riorganizza l’ordine delle pagine nel tuo PDF. 100 % lato client · i tuoi file restano privati.
Supporta file PDF · fino a 50 MB
Cosa fa davvero questo editor
Un editor di pagine PDF opera al livello strutturale di un documento PDF, manipola l'ordine, la presenza e l'orientamento di intere pagine senza toccare il contenuto renderizzato di nessuna singola pagina. Trascini un PDF nell'editor, lo strumento analizza il suo albero delle pagine e mostra una card per pagina con il numero di pagina e le dimensioni, spunti le caselle per le pagine da rimuovere, trascini o premi le frecce per riordinare e scarichi il PDF modificato. Il file originale sul tuo disco non viene mai modificato, la versione modificata è un nuovo download. Ogni operazione avviene nel tuo browser tramite JavaScript, alimentata dalla libreria pdf-lib (un lettore e scrittore PDF in puro JavaScript di Andrew Dillon, licenza MIT, su GitHub all'indirizzo Hopding/pdf-lib) caricata da un CDN. Nessun upload, nessuna elaborazione lato server, nessuna telemetria, verifica nel pannello Network di DevTools mentre clicchi Elimina selezionate e Scarica, o metti la pagina offline (modalità aereo) dopo che pdf-lib si è caricato e l'editor continua a funzionare. File fino a 50 MB si elaborano comodamente; file più grandi funzionano ma richiedono più tempo a seconda del browser e della memoria del dispositivo.
PDF come formato, una breve storia
PDF (Portable Document Format) è stato creato in Adobe da John Warnock, co-fondatore dell'azienda, ed è cresciuto da una sua proposta interna del 1991 chiamata in codice "Camelot". Il primo rilascio pubblico, PDF 1.0, è uscito con Adobe Acrobat 1.0 nel giugno 1993 a un evento di lancio a New York. Il problema originale che PDF risolveva era la portabilità con fedeltà di stampa: prendi qualsiasi documento, impacchettalo con font incorporati e layout esatto, e qualsiasi lettore su qualsiasi sistema operativo lo riproduce pixel per pixel. PDF è rimasto proprietario per quindici anni prima che Adobe rilasciasse la specifica all'ISO. PDF 1.7 è diventato ISO 32000-1:2008 nel luglio 2008, la specifica al cuore essenzialmente di ogni PDF in circolazione attiva oggi. PDF 2.0 è seguito come ISO 32000-2:2017, con una seconda edizione rivista pubblicata nel dicembre 2020 per chiarire ambiguità. Nell'aprile 2023, Adobe ha emesso una rinuncia ai brevetti che concede esplicitamente diritti di implementazione royalty-free per PDF, rimuovendo l'ultimo attrito legale per lettori e scrittori open source. L'unità strutturale del formato è l'albero delle pagine (dizionario /Pages con un array /Kids). Un editor di pagine come questo cammina nell'albero, rimuove o riordina le voci in /Kids e scrive un nuovo file con le pagine sopravvissute rinumerate. Gli stream di contenuto delle pagine stesse non vengono toccati, ed è per questo che l'operazione è veloce anche su documenti grandi e perché il contenuto visivo di ogni pagina è preservato bit-esatto.
La libreria pdf-lib che fa il lavoro
pdf-lib è la libreria PDF in puro JavaScript che rende pratica la modifica lato browser. Andrew Dillon l'ha rilasciata con licenza MIT e il progetto spedisce come singolo bundle che funziona in qualsiasi browser moderno, nessuna dipendenza nativa, nessun WebAssembly richiesto per le operazioni di base. Può analizzare, modificare e serializzare PDF dall'inizio alla fine: leggere documenti esistenti, copiare pagine tra documenti, incorporare immagini PNG e JPEG, disegnare testo con font incorporati, modificare campi modulo e riscrivere il documento modificato come Uint8Array adatto al download. L'architettura alternativa, modifica PDF lato server, è dominante negli strumenti PDF commerciali perché l'elaborazione PDF è stata storicamente difficile. Smallpdf, iLovePDF, Sejda, Soda PDF, ILovePDF, PDF24 e le dozzine di siti concorrenti caricano tutti il tuo file su un server, eseguono pdf-lib o simili (o Ghostscript, qpdf o PDFtk sul backend), poi rispediscono il file modificato. Il compromesso: il lato server gestisce in modo più affidabile dimensioni di file arbitrarie e operazioni complesse, ma ogni pagina di ogni documento che modifichi vive nei log di qualcun altro per qualche durata. Lato browser tramite pdf-lib scambia un soffitto pratico di 50 MB e un set di operazioni leggermente limitato per "il file non lascia mai il tuo dispositivo". Per documenti sensibili, contratti, cartelle cliniche, estratti conto bancari, documenti interni, vale la pena fare quello scambio.
Come funziona questo strumento sotto il cofano
La raccolta di pagine di un PDF è definita dall’albero delle pagine descritto nella sezione 7.7.3 della norma ISO 32000-2. Il dizionario di catalogo del documento ha una voce /Pages che punta al nodo radice dell’albero. Quella radice porta /Type /Pages, una voce /Count che indica il numero totale di pagine foglia sottostanti, e un array /Kids di riferimenti ai figli. I figli sono oggetti di pagina foglia (/Type /Page) o ulteriori nodi /Pages intermedi. L’albero è bilanciato affinché un lettore possa trovare la pagina N in tempo O(log N) senza attraversare ogni foglia, ed è ciò che rende veloce l’accesso casuale alle pagine anche in documenti da 500 pagine.
Quando selezioni un PDF, l’API File del browser passa i byte grezzi a pdf-lib, che analizza la struttura del documento come un albero di oggetti in memoria. Lo strumento chiama pdfDoc.getPageCount() per contare le foglie e itera pdfDoc.getPage(i).getWidth() e getHeight() su ogni pagina per produrre la griglia di schede che vedi (numero di pagina e dimensioni in punti PostScript, dove 1 punto equivale a 1/72 di pollice). Spuntare una casella o premere una freccia aggiorna soltanto un array JavaScript che tiene traccia di quali riferimenti di pagina sopravvivono e in quale ordine. I byte del PDF originale restano intatti nella memoria del browser finché non clicchi su Scarica.
Al momento del download, pdf-lib fa il lavoro pesante tramite copyPages. Lo strumento chiama PDFDocument.create() per costruire un nuovo documento vuoto, poi newDoc.copyPages(sourceDoc, indices), dove indices è l’array delle posizioni delle pagine di origine nell’ordine in cui devono apparire nell’output. copyPages traccia ogni oggetto da cui dipende ciascuna pagina richiesta (font incorporati, XObject immagine, flussi di contenuto, annotazioni) e li copia nel nuovo documento, quindi rigenera la tabella dei riferimenti incrociati affinché tutti gli offset di byte siano coerenti dall’inizio alla fine. L’output è un PDF strutturalmente pulito, identico nell’output renderizzato all’originale pagina per pagina. Nessuna richiesta di rete viene inoltrata durante tutto ciò. Apri gli strumenti per sviluppatori del browser sulla scheda Rete durante l’operazione e non vedrai nulla oltre al caricamento una tantum dal CDN di pdf-lib stesso (circa 380 KB minificati, messi in cache dal browser dopo la prima visita).
Quando ti serve davvero un editor di pagine
- Rimuovere l’allegato che non vuoi condividere. Un rapporto di 60 pagine include un allegato finanziario riservato di 15 pagine. Elimina le pagine da 46 a 60 e invia la versione ridotta. Più veloce che riesportare dall’applicazione di origine (e funziona anche quando non hai più la sorgente).
- Tagliare la pagina di copertina dopo un giro di firme. Un contratto controfirmato torna da DocuSign o da una scansione manuale con una pagina di firma a inchiostro accodata fuori ordine. Sposta la pagina di firma alla fine, elimina la velina di routing duplicata che lo strumento di e-firma ha aggiunto, salva pulito.
- Pulire l'output dello scanner. Uno scanner di documenti multi-pagina produce un singolo PDF che può includere pagine bianche dal feed auto-duplex o pagine uscite storte o fuori ordine. La modifica a livello di pagina ti permette di scartare i bianchi e riordinare i misfeed senza scansionare niente di nuovo.
- Riassemblare per requisiti di invio. Una domanda di sovvenzione, un deposito in tribunale o un'invio accademico richiede pagine in un ordine specifico, titolo, abstract, poi sezioni numerate. Lo strumento di riordinamento ti permette di assemblare pagine da un PDF di origine nella sequenza richiesta senza toccare un editor PDF desktop.
- Rimuovere pagine personali da un documento più lungo. Un CV o un portfolio che include una pagina di referenze personali che non vuoi inviare a un particolare reclutatore. Elimina la pagina, scarica la versione redatta, l'originale resta intatto sul disco.
- Spezzare un PDF di libro troppo grande per la distribuzione. Un PDF di riferimento di 600 pagine è troppo grande da inviare per email. Usa l'editor per eliminare le pagine di un capitolo alla volta, scaricando ogni capitolo come proprio file. Grezzo ma efficace rispetto all'apertura di un editor PDF pesante.
Il panorama competitivo: browser, server, nativo
Tre categorie di editor PDF competono per lo stesso utente. Strumenti desktop nativi, Adobe Acrobat Pro (il riferimento canonico, abbonamento da 19,99 USD al mese), Foxit PDF Editor, Nitro PDF, PDF Studio, Apple Preview (integrato in macOS, sorprendentemente capace per la modifica a livello di pagina), si installano sul tuo computer e funzionano offline contro i tuoi file locali. Gestiscono i file più grandi e le operazioni di modifica più profonde, ma richiedono un download e (per quelli commerciali) spesso una licenza a pagamento. Strumenti web lato server, Smallpdf (con sede in Svizzera, fondato nel 2013), iLovePDF (Spagna, anche 2013), Sejda (USA), PDF24 (Germania), Soda PDF (Canada), Acrobat Online di Adobe stessa, gestiscono operazioni PDF tramite upload del file, elaborazione sull'infrastruttura del provider e download di ritorno. Scalano a file grandi e operazioni complesse, ma ogni file passa attraverso i server di qualcun altro. Strumenti lato browser come questo usano pdf-lib, PDF.js (il renderer PDF di Mozilla, scritto da Andreas Gal e altri a partire dal 2011 e ora distribuito con Firefox) o pdf-lib-extra per fare il lavoro interamente sul tuo dispositivo. Hanno limiti di dimensione del file dettati dalla memoria del browser ma non vedono mai il contenuto del tuo file. Per modifiche di pagina una tantum su documenti che contengono qualcosa di sensibile, l'opzione lato browser è la forma giusta, la scelta è essenzialmente "vale la convenienza di caricare-su-un-server il costo di privacy su questo particolare file?". Per il lavoro di routine su documenti interni, quasi sempre sì. Per contratti, finanze, cartelle cliniche o qualsiasi documento che non pubblicheresti sul web pubblico, quasi sempre no.
Cosa fa e cosa non fa questo editor
- Eliminare pagine · Seleziona le pagine indesiderate con le caselle e rimuovile in blocco.
- Riorganizzare pagine · Usa le frecce su e giù per cambiare l’ordine delle pagine.
- Download istantaneo · Salva il PDF modificato con un solo clic.
- 100 % privato · Tutta l’elaborazione avviene nel tuo browser. Nessun caricamento sui server.
- Supporta PDF grandi · Gestisce efficacemente file fino a 50 MB.
Fuori scope: modificare il contenuto di singole pagine (testo, immagini, campi modulo), dividere un PDF in più file (usa lo strumento dedicato Divisore PDF gratuito), unire più PDF in uno (usa Unisci PDF online gratis), comprimere pagine per ridurre la dimensione del file (usa Compressore PDF gratuito online), oscurare contenuti sensibili con barre nere permanenti o firmare PDF digitalmente. Per queste operazioni, gli strumenti dedicati o un editor PDF desktop sono adatti.
Insidie comuni e cosa significano
- I collegamenti puntano alle pagine sbagliate dopo la modifica. Il PDF di origine ha collegamenti interni o voci di sommario che fanno riferimento alle posizioni delle pagine tramite indice (un collegamento «vai a pagina 3»). Dopo una cancellazione o un riordino, quei riferimenti continuano a puntare alle vecchie posizioni e ora atterrano sul contenuto sbagliato. I PDF che usano destinazioni con nome (collegamenti del tipo «vai a section-3» registrati nell’albero dei nomi del documento) sopravvivono correttamente alla mutazione delle pagine, perché le destinazioni si spostano con le pagine. La soluzione è appiattire le annotazioni di collegamento prima della modifica con Appiattire PDF online gratis, oppure accettare che i collegamenti con numero di pagina assoluto richiederanno una riparazione manuale successiva. Se la sorgente è stata generata da Word con campi di riferimento incrociato o da LaTeX con hyperref, i collegamenti sono di solito destinazioni con nome e sopravvivono.
- Il file di output non è piccolo quanto atteso dopo l’eliminazione. Il
copyPagesdi pdf-lib traccia e copia ogni oggetto da cui dipendono le pagine sopravvissute, ma non deduplica aggressivamente le risorse condivise che erano riferite dalle pagine che hai rimosso. Se le pagine 2 e 5 condividevano un sottoinsieme di font e tieni la 5 ma elimini la 2, il riferimento al font viaggia con la pagina 5 e l’eliminazione risparmia il flusso di contenuto della pagina ma non il font. I risparmi sono di solito dell’80-95 per cento di ciò che ti aspetteresti da una riduzione proporzionale della dimensione. Fai passare il risultato attraverso Compressore PDF gratuito online se conta un output più stretto; il compressore fa un repackaging completo e recupera il resto. - I segnalibri o le voci del sommario scompaiono. Il
copyPagesdi pdf-lib non copia lo schema del documento (l’albero dei segnalibri). Lo schema vive a livello di catalogo del documento come una voce/Outlinesche punta a un albero di elementi di schema, e pdf-lib al momento non lo riscrive durante la copia delle pagine. Il PDF di output ha le pagine modificate nell’ordine corretto ma senza segnalibri. Limitazione nota, tracciata nell’issue #218 di pdf-lib; la soluzione alternativa per i documenti in cui i segnalibri devono essere preservati è usare la funzione Organizza pagine di Adobe Acrobat Pro, che preserva lo schema nativamente attraverso le mutazioni delle pagine. - I campi del modulo smettono di funzionare dopo la modifica. Gli oggetti dei campi AcroForm vivono a livello di documento nell’array
/AcroForm /Fields, con annotazioni widget su singole pagine che si ricollegano a quegli oggetti campo. Quando pdf-lib copia pagine tra documenti, i widget viaggiano con le pagine, ma le associazioni campo-widget non sempre vengono ricostruite in modo pulito. Sintomo visibile: i campi compilabili appaiono come rettangoli statici o scompaiono dall’output. La soluzione per i flussi «finale, non modificabile» è appiattire prima il modulo con Appiattire PDF online gratis, che fissa i valori dei campi in contenuto statico, e poi modificare. Per i flussi «ancora compilabili dopo la modifica» Organizza pagine di Adobe Acrobat Pro è lo strumento adatto. - Il PDF è crittografato e lo strumento segnala un errore. pdf-lib supporta la crittografia di base con password per la lettura ma non può sempre analizzare l’albero delle pagine di un PDF protetto con crittografia di livello utente o restrizioni di livello proprietario su copia o modifica. La soluzione standard in tre passi: sblocca prima il PDF con Sblocca PDF gratis online (anch’esso solo browser, fornendo la password che già conosci), modifica le pagine qui, quindi opzionalmente riproteggi l’output con Protezione PDF con password gratuita online. Il file intermedio sbloccato è quello che viene modificato; l’output finale protetto conserva il nuovo ordine delle pagine e la nuova password.
- Un PDF molto grande fa crashare la scheda. pdf-lib carica l’intero file in memoria JavaScript durante il parsing. I browser desktop moderni gestiscono comodamente PDF fino a diverse centinaia di megabyte, ma i browser mobili hanno tetti di memoria di circa 200 MB-500 MB a seconda del dispositivo. Un PDF da 400 MB su un Android con 4 GB di RAM può portare il sistema operativo a chiudere la scheda. Per file molto grandi, gli strumenti giusti sono applicazioni desktop (Adobe Acrobat, Foxit) o strumenti da riga di comando (qpdf, pikepdf) che leggono il file dal disco in streaming invece di caricarlo per intero in RAM.
Privacy: il file resta sul tuo dispositivo
Ogni editor di pagine PDF su cloud (Smallpdf, iLovePDF, PDF24, Adobe Acrobat Online, Sejda, Soda PDF) carica il tuo file sui server dell’operatore, lo analizza lato server, ti permette di cliccare elimina o trascinare miniature contro anteprime renderizzate dal server, e poi rimanda una copia modificata come download. Le implicazioni sulla privacy differiscono da un normale upload di file su un punto importante: l’operatore legge necessariamente il contenuto di ogni pagina (per renderizzare le anteprime e per contare e identificare le pagine) prima che tu abbia preso una qualsiasi decisione di cancellazione o riordino. Anche se cambi idea e non scarichi mai il risultato, l’operatore ha già visto il contenuto. I principali provider pubblicano informative sulla privacy che si impegnano a cancellare entro poche ore e a usare TLS in transito, e hanno forti incentivi commerciali a rispettarle, ma «cancellato entro un’ora» non è «mai visto». I PDF contengono regolarmente cartelle cliniche, estratti conto bancari, contratti firmati, documenti d’identità, memo interni aziendali e bozze di atti legali; per questi documenti la distinzione di policy conta.
Questo editor non carica nulla. pdf-lib gira nella tua scheda del browser e riceve i byte del file tramite l’API File, restituendo i byte modificati alla stessa scheda come Blob che diventa un download. Puoi verificarlo: apri gli strumenti per sviluppatori del browser sulla scheda Rete prima di cliccare Scarica PDF Modificato, esegui l’operazione e osserva che non viene effettuata alcuna richiesta con il contenuto del tuo file. L’unico traffico di rete è il caricamento una tantum di pdf-lib dal CDN alla prima visita (circa 380 KB minificati), che avviene una sola volta e poi resta nella cache del browser. Metti il browser in modalità aereo dopo che la pagina è stata caricata e l’editor continua a funzionare sui file locali. Il compromesso è l’ampiezza delle funzionalità: i servizi cloud spesso raggruppano operazioni secondarie come OCR prima della modifica, conversione automatica degli allegati o flussi di firma-e-invio dopo la modifica. Questo strumento fa solo cancellazione e riordino a livello di pagina. Per quel flusso focalizzato, lo strumento lato browser è strettamente più veloce (nessuna attesa di upload, nessun limite di dimensione di upload) e significativamente più privato.
Quando un altro strumento è la scelta giusta
- PDF oltre 200 MB su un dispositivo con memoria limitata. pdf-lib carica l’intero file in memoria; su telefoni, tablet o laptop più vecchi la scheda può esaurire la memoria e bloccarsi. Usa Adobe Acrobat, Foxit o lo strumento da riga di comando qpdf per file molto grandi. qpdf legge il file dal disco in streaming e gestisce documenti di dimensione essenzialmente illimitata.
- Moduli XFA o crittografia basata su certificato. XFA è il formato di modulo proprietario Adobe basato su XML, e pdf-lib non lo gestisce in modo affidabile. La crittografia basata su certificato (al contrario di quella basata su password) è ugualmente fuori dalla portata di pdf-lib. Adobe Acrobat è lo strumento canonico per entrambi. Se il documento è stato creato in Adobe LiveCycle Designer, assumi per impostazione predefinita che contenga XFA.
- Modifiche che devono preservare l’albero dei segnalibri o lo schema. Se il documento ha uno schema complesso e hai bisogno che i segnalibri seguano le pagine nelle nuove posizioni (o rimangano dopo una cancellazione), Organizza pagine di Adobe Acrobat Pro lo gestisce nativamente. pdf-lib al momento non lo fa. Per cancellazioni di pagine occasionali su documenti i cui schemi non ti interessano, questo strumento è più veloce; per flussi critici per lo schema come tesi accademiche o manuali tecnici, usa Acrobat Pro.
- Editing batch automatizzato come parte di una pipeline. Per la modifica lato server o tramite script di molti PDF, usa pdf-lib direttamente da Node.js (stessa libreria, nessuna scheda di browser necessaria), pikepdf di Python (un binding a qpdf con API pythonica), o la riga di comando di qpdf con sintassi esplicita di intervalli di pagina (
qpdf --pages input.pdf 1-4,6-20 -- output.pdfconserva le pagine da 1 a 4 e da 6 a 20, eliminando la 5).
Domande frequenti
Il mio PDF viene caricato su un server?
No. Tutta l’elaborazione avviene nel tuo browser. Il tuo PDF non lascia mai il tuo dispositivo, garantendo privacy e sicurezza complete.
Qual è il limite di dimensione del file?
Sono supportati PDF fino a 50 MB. La velocità di elaborazione dipende dal tuo dispositivo e dalla dimensione del file.
Posso annullare le mie modifiche?
Puoi riorganizzare le pagine prima di scaricare. Una volta scaricato, conserva l’originale se vuoi mantenerlo. Lo strumento non modifica il tuo file originale.
Funziona con PDF scansionati?
Sì. Le operazioni a livello di pagina (elimina, riordina) funzionano in modo identico sia che ogni pagina contenga testo selezionabile sia un bitmap di immagine scansionato, l'editor sposta intere pagine come blocchi opachi di contenuto. Il numero di pagine, i numeri di pagina e le dimensioni si visualizzano correttamente anche per pagine basate su immagine. Quello che questo editor non fa è OCR del testo scansionato o modifica del contenuto immagine di una pagina; per quelle operazioni serve uno strumento OCR dedicato o un editor PDF desktop con funzionalità OCR.
Questo strumento funziona su mobile?
Lo strumento è ottimizzato per i browser desktop. I dispositivi mobili possono avere funzionalità limitate con PDF grandi, ma le operazioni di base dovrebbero funzionare.
E i PDF protetti da password?
Il supporto integrato di pdf-lib per i PDF crittografati è limitato rispetto ad Adobe Acrobat. Se un PDF è protetto da password con crittografia a livello utente, l'editor potrebbe non riuscire a caricarlo o caricarlo senza la possibilità di scrivere modifiche. La soluzione: apri il PDF in uno strumento desktop che conosce la password, salvalo come copia non crittografata, poi modifica la versione non crittografata in questo strumento. Ricrittografa dopo, se hai bisogno di protezione con password sull'output.
Altre domande frequenti
Questo strumento funziona offline?
Dopo la prima visita, sì. La libreria JavaScript pdf-lib viene messa in cache dal browser al primo caricamento (circa 380 KB minificati). Le visite successive all’editor di pagine funzionano senza connessione di rete, purché la cache del browser non sia stata svuotata nel frattempo. La manipolazione dell’albero delle pagine in sé non ha mai avuto bisogno della rete; solo il caricamento della libreria. Puoi verificarlo attivando la modalità aereo dopo aver aperto la pagina una volta e provando a eliminare o riordinare un PDF locale.
Posso eliminare o riordinare pagine di più PDF contemporaneamente?
Non direttamente: l’interfaccia accetta un documento sorgente alla volta. Il flusso a due passi per modifiche multi-PDF è usare prima Unisci PDF online gratis per combinare le tue sorgenti in un unico documento, e poi portare quel PDF combinato qui per eliminare o riordinare le pagine fino alla sequenza finale. Per flussi cross-document più complessi (trascinare la pagina 3 del file A tra le pagine 5 e 6 del file B) Organizza pagine di Adobe Acrobat Pro gestisce nativamente il trascinamento cross-document in un solo passaggio. Per l’automazione batch su decine o centinaia di file, gli strumenti da riga di comando qpdf o pikepdf sono i giusti.
Devo modificare le pagine prima o dopo aver firmato, appiattito o compresso?
L’ordine sicuro è: modificare prima, appiattire dopo, firmare in seguito, comprimere alla fine. Modificare per primo perché le operazioni successive dipendono dalla sequenza finale delle pagine. Appiattire dopo perché fissa campi di modulo e annotazioni in contenuto statico così che gli strumenti a valle gestiscano il documento in modo uniforme. Firmare dopo l’appiattimento perché le firme crittografiche si vincolano alla sequenza finale di byte del documento e qualsiasi modifica successiva le invalida. Comprimere alla fine (opzionale) per ridurre la dimensione del file per la trasmissione. I PDF firmati che vengono modificati in seguito falliranno la verifica della firma in Acrobat e in altri lettori sensibili alle firme, quindi la firma deve essere sempre l’ultimo passo che tocca il contenuto.
Il livello di testo OCR sarà preservato sulle pagine scansionate?
Sì. Il testo OCR in un PDF è memorizzato come testo invisibile disegnato sopra l’immagine scansionata (una sequenza di operatori di flusso di contenuto contrassegnata come invisibile), e quel flusso di contenuto fa parte dell’oggetto pagina. Quando copyPages di pdf-lib copia una pagina, copia l’intero oggetto pagina compresi tutti i suoi flussi di contenuto, riferimenti di font e qualsiasi livello di testo OCR invisibile. La ricerca e la selezione continuano a funzionare sull’output modificato esattamente come funzionavano sull’originale, per le pagine che sono sopravvissute. Il livello di testo è preservato byte per byte; pdf-lib non ricodifica né ri-rasterizza nulla.
Eliminare metà delle pagine riduce la dimensione del file della metà?
Di solito meno della metà, a volte molto meno. Se le pagine eliminate avevano contenuto unico (immagini incorporate proprie, sottoinsiemi di font propri), i risparmi sono grandi. Se le pagine eliminate condividevano risorse con quelle che hai mantenuto (lo stesso font usato in tutto il documento, la stessa immagine di logo su ogni pagina), le risorse condivise restano nel file. pdf-lib non re-impacchetta aggressivamente il file al salvataggio, quindi la deduplicazione tra pagine che il PDF originale faceva già viene preservata, ma le nuove opportunità di deduplicazione create dall’eliminazione non vengono sfruttate. Per un output stretto, fai passare il risultato attraverso Compressore PDF gratuito online, che esegue un repackaging completo e una ricodifica delle immagini e di solito recupera il resto dei risparmi.
Esiste un equivalente desktop o da riga di comando per lo scripting?
Sì, diversi. pdf-lib gira invariata in Node.js (npm install pdf-lib) e il codice di modifica è identico: copyPages(source, indices) seguito da addPage() per ciascuna pagina. Per la riga di comando, qpdf ha una sintassi di selezione per pagina: qpdf --pages input.pdf 1-4,6-20 -- input.pdf output.pdf conserva le pagine da 1 a 4 e da 6 a 20, eliminando la 5. pikepdf di Python è un binding a qpdf con API più pulita (del pdf.pages[2] per eliminare la pagina 3, semantica di slicing di liste per il riordino). Adobe Acrobat Pro offre le stesse operazioni tramite interfaccia grafica e in più preserva i segnalibri e lo schema del documento attraverso le mutazioni delle pagine, cosa che il percorso solo-browser non fa.