Editor de páginas PDF gratis en línea
Elimina páginas no deseadas y reorganiza el orden de las páginas de tu PDF. 100 % en el cliente · tus archivos permanecen privados.
Admite archivos PDF · hasta 50 MB
Lo que hace realmente este editor
Un editor de páginas PDF opera en el nivel estructural de un documento PDF: manipula el orden, la presencia y la orientación de páginas enteras sin tocar el contenido renderizado de cada página. Suelta un PDF en el editor, la herramienta analiza su árbol de páginas y muestra una tarjeta por página con el número y las dimensiones, marca las casillas de las páginas que quieres eliminar, arrastra o usa las flechas para reordenar y descarga el PDF modificado. El archivo original en tu disco nunca se modifica: la versión editada es una descarga nueva. Cada operación se ejecuta en tu navegador mediante JavaScript, impulsada por la biblioteca pdf-lib (un lector/escritor de PDF en JavaScript puro de Andrew Dillon, licencia MIT, en GitHub en Hopding/pdf-lib) cargada desde una CDN. Sin subida, sin procesamiento en servidor, sin telemetría: verifícalo en la pestaña Red de DevTools mientras pulsas Eliminar seleccionadas y Descargar, o pon la página fuera de línea (modo avión) después de que pdf-lib haya cargado y el editor seguirá funcionando. Los archivos hasta 50 MB se procesan cómodamente; los archivos más grandes funcionan pero tardan más, según la memoria del navegador y el dispositivo.
El PDF como formato, breve historia
El PDF (Portable Document Format) lo creó en Adobe John Warnock, cofundador de la empresa, y nació de su propuesta interna de 1991 apodada «Camelot». La primera versión pública, PDF 1.0, se lanzó con Adobe Acrobat 1.0 en junio de 1993 en un evento de lanzamiento en Nueva York. El problema original que resolvía el PDF era la portabilidad fiel a la impresión: tomas cualquier documento, lo empaquetas con sus fuentes incrustadas y su maquetación exacta, y cualquier lector en cualquier sistema operativo lo reproduce píxel a píxel. El PDF se mantuvo propietario durante quince años antes de que Adobe entregara la especificación a la ISO. PDF 1.7 se convirtió en ISO 32000-1:2008 en julio de 2008: la especificación en el corazón de prácticamente todo PDF en circulación hoy. PDF 2.0 siguió como ISO 32000-2:2017, con una segunda edición revisada publicada en diciembre de 2020 para aclarar ambigüedades. En abril de 2023, Adobe emitió una renuncia de patentes que concede explícitamente derechos de implementación libres de regalías para el PDF, eliminando la última fricción legal para lectores y escritores de código abierto. La unidad estructural del formato es el árbol de páginas (diccionario /Pages con un array /Kids). Un editor de páginas como este recorre el árbol, elimina o reordena entradas en /Kids y escribe un nuevo archivo con las páginas supervivientes renumeradas. Los flujos de contenido de página en sí no se tocan: por eso la operación es rápida incluso en documentos grandes y por eso el contenido visual de cada página se preserva bit a bit.
La biblioteca pdf-lib que hace el trabajo
pdf-lib es la biblioteca PDF en JavaScript puro que hace viable la edición en el navegador. Andrew Dillon la publicó bajo licencia MIT y el proyecto se entrega como un solo bundle que funciona en cualquier navegador moderno: sin dependencias nativas, sin WebAssembly necesario para las operaciones básicas. Puede analizar, modificar y serializar PDF de extremo a extremo: leer documentos existentes, copiar páginas entre documentos, incrustar imágenes PNG y JPEG, dibujar texto con fuentes incrustadas, modificar campos de formulario y reescribir el documento modificado como un Uint8Array listo para descargar. La arquitectura alternativa -edición de PDF en servidor- domina las herramientas PDF comerciales porque el procesamiento de PDF ha sido históricamente difícil. Smallpdf, iLovePDF, Sejda, Soda PDF, ILovePDF, PDF24 y las decenas de sitios competidores suben tu archivo a un servidor, ejecutan pdf-lib o similares (o Ghostscript, qpdf, o PDFtk en el backend) y luego devuelven el archivo modificado. La concesión: el lado servidor maneja con más fiabilidad tamaños de archivo arbitrarios y operaciones complejas, pero cada página de cada documento que editas vive en los registros de otra empresa durante algún tiempo. El lado navegador con pdf-lib intercambia un techo práctico de 50 MB y un conjunto de operaciones algo limitado a cambio de «el archivo nunca sale de tu dispositivo». Para documentos sensibles -contratos, registros médicos, extractos bancarios, documentos internos- el intercambio merece la pena.
Cómo funciona esta herramienta por dentro
La colección de páginas de un PDF está definida por el árbol de páginas descrito en la sección 7.7.3 de la norma ISO 32000-2. El diccionario de catálogo del documento tiene una entrada /Pages que apunta al nodo raíz del árbol. Esa raíz lleva /Type /Pages, una entrada /Count que indica el número total de páginas hoja debajo, y un array /Kids de referencias a sus hijos. Los hijos son objetos de página hoja (/Type /Page) o nodos /Pages intermedios. El árbol está balanceado para que un lector pueda encontrar la página N en tiempo O(log N) sin recorrer cada hoja, y por eso el acceso aleatorio a páginas es rápido incluso en documentos de 500 páginas.
Cuando seleccionas un PDF, la API File del navegador entrega los bytes en bruto a pdf-lib, que analiza la estructura del documento como un árbol de objetos en memoria. La herramienta llama a pdfDoc.getPageCount() para contar las hojas e itera pdfDoc.getPage(i).getWidth() y getHeight() en cada página para producir la cuadrícula de tarjetas que ves (número de página y dimensiones en puntos PostScript, donde 1 punto equivale a 1/72 de pulgada). Marcar una casilla o pulsar una flecha solo actualiza un array de JavaScript que lleva la cuenta de qué referencias de página sobreviven y en qué orden. Los bytes del PDF original permanecen intactos en la memoria del navegador hasta que pulsas Descargar.
Al descargar, pdf-lib hace el trabajo pesado mediante copyPages. La herramienta llama a PDFDocument.create() para construir un documento vacío y luego a newDoc.copyPages(sourceDoc, indices), donde indices es el array de posiciones de páginas fuente en el orden en que deben aparecer en la salida. copyPages rastrea cada objeto del que dependen las páginas solicitadas (fuentes incrustadas, XObjects de imagen, flujos de contenido, anotaciones) y los copia al nuevo documento, y después regenera la tabla de referencias cruzadas para que todos los desplazamientos de bytes sean consistentes de extremo a extremo. La salida es un PDF estructuralmente limpio, idéntico al original en su representación visual página por página. No se dispara ninguna petición de red durante todo esto. Abre las herramientas de desarrollo del navegador en la pestaña Red durante la operación y no verás nada más que la carga única desde el CDN de pdf-lib (unos 380 KB minificados, almacenados en caché por el navegador tras la primera visita).
Cuándo necesitas realmente un editor de páginas
- Eliminar el anexo que no quieres compartir. Un informe de 60 páginas incluye un anexo financiero confidencial de 15 páginas. Elimina las páginas de la 46 a la 60 y envía la versión recortada. Más rápido que reexportar desde la aplicación original (y funciona incluso cuando ya no tienes la fuente).
- Recortar la portada tras una ronda de firmas. Un contrato contrafirmado vuelve de DocuSign o de un escaneo manual con una página de firma a tinta añadida fuera de orden. Mueve la página de la firma al final, borra el comprobante de encaminamiento duplicado que añadió la herramienta de firma electrónica y guarda limpio.
- Limpiar la salida del escáner. Un escáner de documentos multipágina produce un único PDF que puede incluir páginas de dorso en blanco por la alimentación auto-dúplex, o páginas que salieron torcidas o desordenadas. La edición a nivel de página te permite descartar las en blanco y reordenar las alimentaciones erróneas sin volver a escanear nada.
- Reagrupar para requisitos de envío. Una solicitud de subvención, una presentación judicial o un envío académico exigen páginas en un orden específico: título, resumen, luego secciones numeradas. La herramienta de reordenación te permite ensamblar páginas de un PDF de origen en la secuencia requerida sin tocar un editor PDF de escritorio.
- Eliminar páginas personales de un documento más largo. Un CV o un portafolio que incluye una página de referencias personales que no quieres enviar a un reclutador concreto. Borra la página, descarga la versión expurgada, el original sigue intacto en el disco.
- Dividir un PDF de libro demasiado grande para distribución. Un PDF de referencia de 600 páginas es demasiado grande para un correo electrónico. Usa el editor para borrar las páginas de un capítulo cada vez, descargando cada capítulo como su propio archivo. Tosco pero efectivo en comparación con abrir un editor PDF pesado.
El panorama competitivo: navegador vs servidor vs nativo
Tres categorías de editor de PDF compiten por el mismo usuario. Las herramientas nativas de escritorio -Adobe Acrobat Pro (la referencia canónica, suscripción de US$19,99/mes), Foxit PDF Editor, Nitro PDF, PDF Studio, Apple Preview (integrado en macOS, sorprendentemente capaz para edición a nivel de página)- se instalan en tu ordenador y funcionan sin conexión sobre tus archivos locales. Manejan los archivos más grandes y las operaciones de edición más profundas, pero requieren una descarga y (las comerciales) a menudo una licencia de pago. Las herramientas web del lado servidor -Smallpdf (con sede en Suiza, fundada en 2013), iLovePDF (España, también de 2013), Sejda (EE. UU.), PDF24 (Alemania), Soda PDF (Canadá), Acrobat Online de la propia Adobe- gestionan las operaciones de PDF mediante subida de archivo, procesamiento en la infraestructura del proveedor y descarga de vuelta. Escalan a archivos grandes y operaciones complejas, pero cada archivo pasa por servidores de otra empresa. Las herramientas del lado navegador como esta usan pdf-lib, PDF.js (el renderizador de PDF de Mozilla, escrito por Andreas Gal y otros a partir de 2011 y actualmente incluido con Firefox) o pdf-lib-extra para hacer el trabajo enteramente en tu dispositivo. Tienen límites de tamaño de archivo dictados por la memoria del navegador, pero nunca ven el contenido de tu archivo. Para ediciones puntuales de páginas en documentos que contengan algo sensible, la opción del lado navegador es la forma adecuada: la elección se reduce esencialmente a «¿la comodidad de subirlo a un servidor merece el coste de privacidad de este archivo concreto?». Para trabajo rutinario sobre documentos internos, casi siempre sí. Para contratos, finanzas, registros médicos o cualquier documento que no publicarías en la web pública, casi siempre no.
Lo que este editor hace y no hace
- Eliminar páginas, selecciona páginas con casillas y elimínalas en lote. Los números de página se renumeran automáticamente en el PDF modificado.
- Reordenar páginas, los controles de flecha arriba/abajo mueven una página dentro de la secuencia. El PDF descargado refleja el nuevo orden.
- Tarjetas de vista previa de página, cada página muestra su número y dimensiones para que sepas qué estás editando.
- Archivo original intacto, el editor lee el archivo pero nunca le sobrescribe; la versión modificada es una descarga nueva en tu carpeta de descargas predeterminada.
- Ejecución solo en el navegador, pdf-lib se ejecuta en tu pestaña; sin subida al servidor en ninguna fase.
Fuera de alcance: editar el contenido de páginas individuales (texto, imágenes, campos de formulario), dividir un PDF en varios archivos (usa la herramienta dedicada Divisor de PDF gratuito), fusionar varios PDF en uno (usa Unir PDF online gratis), comprimir páginas para reducir el tamaño del archivo (usa Compresor de PDF gratis en línea), redactar contenido sensible con barras negras permanentes o firmar PDF digitalmente. Para estas operaciones, las herramientas dedicadas o un editor PDF de escritorio son la opción adecuada.
Errores comunes y su significado
- Los hipervínculos apuntan a las páginas equivocadas tras la edición. El PDF de origen tiene hipervínculos internos o entradas de tabla de contenidos que referencian posiciones de página por índice (un enlace «ir a la página 3»). Tras una eliminación o reordenación, esas referencias siguen apuntando a las posiciones antiguas y aterrizan en el contenido equivocado. Los PDF que usan destinos con nombre (enlaces del estilo «ir a section-3» registrados en el árbol de nombres del documento) sobreviven correctamente a la mutación de páginas, porque los destinos se mueven con las páginas. La solución es aplanar las anotaciones de enlaces antes de editar con Aplanamiento de PDF en línea gratuito, o aceptar que los enlaces de página absoluta necesitarán reparación manual posterior. Si la fuente se generó desde Word con campos de referencia cruzada o desde LaTeX con hyperref, los enlaces normalmente son destinos con nombre y sobreviven.
- El archivo de salida no es tan pequeño como cabría esperar tras la eliminación. El
copyPagesde pdf-lib rastrea y copia cada objeto del que dependen las páginas supervivientes, pero no deduplica agresivamente los recursos compartidos que se referenciaban desde las páginas que eliminaste. Si las páginas 2 y 5 compartían un subconjunto de fuente y mantienes la 5 pero borras la 2, la referencia de fuente viaja con la página 5 y la eliminación ahorra el flujo de contenido de la página pero no la fuente. El ahorro suele ser del 80 al 95 por ciento de lo que esperarías de una reducción proporcional. Pasa el resultado por Compresor de PDF gratis en línea si importa una salida más ajustada; el compresor hace un reempaquetado completo y recupera el resto. - Los marcadores o las entradas de tabla de contenidos desaparecen. El
copyPagesde pdf-lib no copia el esquema del documento (el árbol de marcadores). El esquema vive en el catálogo del documento como una entrada/Outlinesque apunta a un árbol de elementos de esquema, y pdf-lib actualmente no lo reescribe durante la copia de páginas. El PDF de salida tiene las páginas modificadas en el orden correcto pero sin marcadores. Es una limitación conocida, registrada en el issue #218 de pdf-lib; la alternativa para documentos donde los marcadores deben preservarse es usar la función Organizar páginas de Adobe Acrobat Pro, que preserva el esquema de forma nativa durante las mutaciones de páginas. - Los campos de formulario dejan de funcionar tras la edición. Los objetos de campo AcroForm viven a nivel de documento en el array
/AcroForm /Fields, con anotaciones widget en las páginas individuales que se conectan con esos objetos de campo. Cuando pdf-lib copia páginas entre documentos, los widgets viajan con las páginas, pero las asociaciones campo-a-widget no siempre se reconstruyen limpiamente. El síntoma visible: los campos rellenables aparecen como rectángulos estáticos o desaparecen de la salida. La solución para flujos «final, no editable» es aplanar primero el formulario con Aplanamiento de PDF en línea gratuito, lo que cuece los valores en contenido estático, y luego editar. Para flujos «aún rellenable tras editar», Organizar páginas de Adobe Acrobat Pro es la herramienta adecuada. - El PDF está cifrado y la herramienta informa un error. pdf-lib admite el cifrado básico por contraseña en lectura pero no siempre puede analizar el árbol de páginas de un PDF protegido con cifrado de nivel de usuario o restricciones de nivel de propietario sobre copia o modificación. El plan estándar de tres pasos: desbloquea primero el PDF con Desbloquear PDF gratis en línea (también solo en navegador, aportando la contraseña que ya conoces), edita las páginas aquí y, después, vuelve a proteger la salida con Proteger un PDF con contraseña si lo deseas. El archivo intermedio desbloqueado es el que se edita; la salida final protegida conserva el nuevo orden de páginas y la nueva contraseña.
- Un PDF muy grande hace que la pestaña se bloquee. pdf-lib carga todo el archivo en memoria de JavaScript al analizarlo. Los navegadores de escritorio modernos manejan cómodamente PDF de hasta varios cientos de megabytes, pero los navegadores móviles tienen techos de memoria de unos 200 MB a 500 MB según el dispositivo. Un PDF de 400 MB en un Android con 4 GB de RAM puede hacer que el sistema operativo cierre la pestaña. Para archivos muy grandes, las herramientas adecuadas son aplicaciones de escritorio (Adobe Acrobat, Foxit) o herramientas de línea de comandos (qpdf, pikepdf) que leen el archivo desde disco en streaming en lugar de cargarlo entero en RAM.
Privacidad: el archivo se queda en tu dispositivo
Todos los editores de páginas PDF en la nube (Smallpdf, iLovePDF, PDF24, Adobe Acrobat Online, Sejda, Soda PDF) suben tu archivo a los servidores del operador, lo analizan en el servidor, te dejan pulsar borrar o arrastrar miniaturas contra vistas previas renderizadas por el servidor y luego devuelven una copia modificada como descarga. Las implicaciones para la privacidad difieren de una carga de archivo normal en un punto importante: el operador necesariamente lee el contenido de cada página (para renderizar vistas previas y para contar e identificar páginas) antes de que hayas tomado ninguna decisión de borrado o reordenación. Aunque cambies de opinión y nunca descargues el resultado, el operador ya ha visto el contenido. Los grandes proveedores publican políticas de privacidad que se comprometen a borrar en horas y a usar TLS en tránsito, y tienen fuertes incentivos comerciales para cumplirlas, pero «borrado en una hora» no es «nunca visto». Los PDF contienen rutinariamente historias clínicas, extractos bancarios, contratos firmados, documentos de identidad, memorandos internos de empresa y borradores de presentaciones judiciales; para estos documentos, la distinción de política importa.
Este editor no sube nada. pdf-lib se ejecuta en tu pestaña del navegador y recibe los bytes del archivo a través de la API File, devolviendo los bytes modificados a la misma pestaña como un Blob que se convierte en descarga. Puedes comprobarlo: abre las herramientas de desarrollo del navegador en la pestaña Red antes de pulsar Descargar PDF Modificado, ejecuta la operación y observa que no se realiza ninguna petición con el contenido de tu archivo. El único tráfico de red es la única descarga desde el CDN de pdf-lib en la primera visita (unos 380 KB minificados), que ocurre una vez y luego permanece en la caché del navegador. Pon el navegador en modo avión después de que la página haya cargado y el editor seguirá funcionando sobre archivos locales. El compromiso es el alcance de funcionalidades: los servicios en la nube suelen agrupar operaciones secundarias como OCR antes de editar, conversión automática de adjuntos, o flujos de firmar y enviar tras la edición. Esta herramienta hace solo borrado y reordenación a nivel de página. Para ese flujo concreto, la herramienta del navegador es estrictamente más rápida (sin espera de subida, sin límite de tamaño de carga) y significativamente más privada.
Cuándo otra herramienta es la elección correcta
- PDF de más de 200 MB en un dispositivo con memoria limitada. pdf-lib carga todo el archivo en memoria; en móviles, tabletas o portátiles antiguos, la pestaña se puede quedar sin memoria y bloquearse. Usa Adobe Acrobat, Foxit o la herramienta de línea de comandos qpdf para archivos muy grandes. qpdf lee el archivo desde disco en streaming y maneja documentos de tamaño esencialmente ilimitado.
- Formularios XFA o cifrado basado en certificado. XFA es el formato propietario de Adobe basado en XML, y pdf-lib no lo gestiona de forma fiable. El cifrado basado en certificado (en lugar del basado en contraseña) también está fuera del alcance de pdf-lib. Adobe Acrobat es la herramienta canónica para ambos. Si el documento se creó en Adobe LiveCycle Designer, asume por defecto que contiene XFA.
- Ediciones que deben preservar el árbol de marcadores o de esquema. Si el documento tiene un esquema complejo y necesitas que los marcadores sigan a las páginas a sus nuevas posiciones (o permanezcan tras una eliminación), Organizar páginas de Adobe Acrobat Pro lo gestiona de forma nativa. pdf-lib actualmente no lo hace. Para eliminaciones puntuales de páginas en documentos cuyos esquemas no te importan, esta herramienta es más rápida; para flujos críticos en cuanto al esquema, como tesis académicas o manuales técnicos, usa Acrobat Pro.
- Edición por lotes automatizada como parte de una canalización. Para editar muchos PDF desde el servidor o por script, usa pdf-lib directamente desde Node.js (la misma biblioteca, sin necesidad de pestaña de navegador), pikepdf en Python (un binding a qpdf con API pythonica) o la línea de comandos de qpdf con sintaxis explícita de rangos de páginas (
qpdf --pages input.pdf 1-4,6-20 -- output.pdfconserva las páginas 1 a 4 y 6 a 20, borrando la 5).
Preguntas frecuentes
¿Mi PDF se sube a un servidor?
No. Todo el procesamiento ocurre en tu navegador a través de la biblioteca JavaScript pdf-lib, que se ejecuta en tu pestaña. Tu archivo se lee en la memoria del navegador, se manipula en JavaScript y la versión modificada se te ofrece como descarga. El único tráfico de red es la carga puntual del propio pdf-lib desde la CDN cuando se abre la página por primera vez. Verifícalo en la pestaña Red de DevTools mientras eliminas páginas o pulsas Descargar: no se disparan peticiones que incluyan el contenido de tu archivo.
¿Cuál es el límite de tamaño de archivo?
Los PDF de hasta 50 MB se procesan cómodamente en la mayoría de navegadores y dispositivos modernos. Los archivos mayores de 50 MB funcionarán pero pueden congelar brevemente la pestaña mientras pdf-lib analiza el árbol de páginas, especialmente en dispositivos con menos memoria. El límite fundamental es la memoria del navegador más que un tope estricto; los PDF muy grandes (cientos de megabytes) pueden encajar mejor con una herramienta de escritorio como Adobe Acrobat o Apple Preview.
¿Puedo deshacer mis cambios?
Puedes seguir cambiando la selección y el orden de las páginas antes de descargar: nada se confirma hasta que pulsas Descargar PDF modificado. Refrescar la página o pulsar Limpiar restablece al documento original. Una vez descargado, el archivo modificado es un PDF nuevo; el original en tu disco nunca se sobrescribe, así que siempre tienes la versión sin modificar para empezar de nuevo.
¿Funciona esto con PDF escaneados?
Sí. Las operaciones a nivel de página (eliminar, reordenar) funcionan idénticamente tanto si cada página contiene texto seleccionable como un mapa de bits de imagen escaneada: el editor mueve páginas enteras como bloques opacos de contenido. El recuento de páginas, los números y las dimensiones también se muestran correctamente para páginas basadas en imagen. Lo que este editor no hace es OCR del texto escaneado ni modificar el contenido de imagen de ninguna página; para esas operaciones se requiere una herramienta OCR dedicada o un editor PDF de escritorio con funciones OCR.
¿Funciona esta herramienta en el móvil?
Sí para archivos pequeños. Los navegadores móviles tienen menos memoria y motores JavaScript más lentos que los de escritorio, por lo que los PDF muy grandes pueden congelar la pestaña o estrellarla. La affordance de arrastrar y soltar también funciona peor en dispositivos táctiles: usa el selector de archivo (toca «pulsa para examinar») en su lugar. Para borrados puntuales de páginas en PDF más pequeños, el móvil funciona bien; para archivos grandes, pásate al escritorio.
¿Y los PDF protegidos con contraseña?
El soporte integrado de pdf-lib para PDF cifrados es limitado en comparación con Adobe Acrobat. Si un PDF está protegido con contraseña con cifrado a nivel de usuario, el editor puede no cargarlo o cargarlo sin la capacidad de escribir cambios. La solución alternativa: abre el PDF en una herramienta de escritorio que conozca la contraseña, guárdalo como copia sin cifrar y luego edita la versión sin cifrar en esta herramienta. Vuelve a cifrarlo después si necesitas protección con contraseña en la salida.
Más preguntas frecuentes
¿Funciona esta herramienta sin conexión?
Tras la primera visita, sí. La biblioteca JavaScript pdf-lib se almacena en la caché del navegador en la primera carga (unos 380 KB minificados). Las visitas siguientes al editor de páginas funcionan sin conexión, mientras la caché del navegador no se haya borrado. La manipulación del árbol de páginas en sí nunca necesitó red; solo la carga de la biblioteca. Puedes verificarlo activando el modo avión tras abrir la página una vez y probando a borrar o reordenar un PDF local.
¿Puedo borrar o reordenar páginas de varios PDF a la vez?
No directamente: la interfaz acepta un documento fuente cada vez. El flujo en dos pasos para edición multi-PDF es usar primero Unir PDF online gratis para unir tus fuentes en un único documento, y luego traer ese PDF combinado aquí para borrar o reordenar páginas hasta la secuencia final. Para flujos cruzados más complejos (arrastrar la página 3 del archivo A entre las páginas 5 y 6 del archivo B), Organizar páginas de Adobe Acrobat Pro gestiona el arrastre cruzado de forma nativa en un solo paso. Para automatización por lotes en decenas o cientos de archivos, las herramientas de línea de comandos qpdf o pikepdf son las adecuadas.
¿Debo editar las páginas antes o después de firmar, aplanar o comprimir?
El orden seguro es: editar primero, aplanar después, firmar a continuación y comprimir al final. Editar primero porque las operaciones siguientes dependen de la secuencia final de páginas. Aplanar después porque cuece los campos de formulario y anotaciones en contenido estático para que las herramientas posteriores traten el documento de manera uniforme. Firmar tras aplanar porque las firmas criptográficas se comprometen con la secuencia final de bytes del documento y cualquier cambio posterior las invalida. Comprimir al final (opcional) para reducir el tamaño del archivo de cara a la transmisión. Los PDF firmados que se editan luego fallarán la verificación de firma en Acrobat y otros lectores que reconocen firmas, así que firmar debe ser siempre el último paso que toca el contenido.
¿Se conservará la capa de texto OCR en páginas escaneadas?
Sí. El texto OCR en un PDF se almacena como texto invisible dibujado sobre la imagen escaneada (una secuencia de operadores de flujo de contenido marcada como invisible), y ese flujo de contenido forma parte del objeto de página. Cuando el copyPages de pdf-lib copia una página, copia todo el objeto de página, incluidos todos sus flujos de contenido, referencias de fuente y cualquier capa de texto OCR invisible. La búsqueda y la selección siguen funcionando en la salida editada exactamente igual que en el original, para las páginas que sobrevivieron. La capa de texto se preserva byte a byte; pdf-lib no recodifica ni vuelve a rasterizar nada.
¿Borrar la mitad de las páginas reduce el archivo a la mitad?
Suele ser menos de la mitad, a veces mucho menos. Si las páginas borradas tenían contenido propio (sus propias imágenes incrustadas, sus propios subconjuntos de fuente), el ahorro es grande. Si las páginas borradas compartían recursos con las que conservaste (la misma fuente usada en todo el documento, la misma imagen de logo en cada página), los recursos compartidos se quedan en el archivo. pdf-lib no reempaqueta agresivamente el archivo al guardar, así que la deduplicación entre páginas que el PDF original ya hacía se preserva, pero las nuevas oportunidades de deduplicación creadas por el borrado no se aprovechan. Para una salida ajustada, pasa el resultado por Compresor de PDF gratis en línea, que hace un reempaquetado completo y un recodificado de imágenes y normalmente recupera el resto del ahorro.
¿Existe un equivalente de escritorio o de línea de comandos para automatizar?
Sí, varios. pdf-lib se ejecuta sin cambios en Node.js (npm install pdf-lib) y el código de edición es el mismo: copyPages(source, indices) seguido de addPage() por cada página. Para la línea de comandos, qpdf tiene una sintaxis de selección por página: qpdf --pages input.pdf 1-4,6-20 -- input.pdf output.pdf conserva las páginas 1 a 4 y 6 a 20, borrando la 5. pikepdf en Python es un binding a qpdf con una API más limpia (del pdf.pages[2] para borrar la página 3, semántica de slicing de listas para reordenar). Adobe Acrobat Pro ofrece las mismas operaciones a través de una interfaz gráfica y, además, conserva los marcadores y el esquema del documento durante las mutaciones de páginas, cosa que el camino solo-navegador no hace.