Editor de metadatos PDF gratuito
Modifica los metadatos PDF, título, autor, asunto, palabras clave, etc. Funciona íntegramente en tu navegador.
¿Qué son los metadatos PDF?
Los metadatos PDF son información sobre el documento que no aparece en el contenido visible. Incluyen el título, el autor, el asunto, las palabras clave, la fecha de creación y otras propiedades. Esta información facilita la organización, la búsqueda y la identificación de los documentos.
¿Por qué modificar los metadatos PDF?
- Organización · define metadatos coherentes en tus documentos para una mejor clasificación y búsqueda.
- Profesionalidad · asegúrate de que tus documentos muestren el autor y el título correctos.
- Posicionamiento y descubrimiento · las palabras clave en los metadatos ayudan a la descubribilidad.
- Corrección de propiedades · corrige información de autor, título o asunto incorrecta o ausente.
Preguntas frecuentes
¿Modificar los metadatos cambia el contenido del PDF?
No. Solo se modifican los metadatos. El contenido, las páginas y el formato del PDF permanecen estrictamente idénticos.
¿Puedo modificar los metadatos de un PDF cifrado?
Si el PDF está protegido con contraseña, no puedes modificar sus metadatos con esta herramienta. El archivo debe desbloquearse primero.
¿Cuál es el límite de tamaño de archivo?
Esta herramienta admite PDF de hasta 10 MB. Los archivos más voluminosos pueden tardar más en procesarse.
Qué son realmente los metadatos de un PDF
Un archivo PDF puede llevar metadatos a nivel de documento en dos lugares a la vez. El mecanismo original, presente desde PDF 1.0 (1993), es el diccionario de información del documento (llamado «DocInfo» o /Info): un objeto de clave/valor referenciado desde el tráiler del PDF. PDF 1.4 (2001) añadió un segundo mecanismo, más rico: un flujo de metadatos XMP, un paquete XML (RDF/XML conforme a la plataforma eXtensible Metadata Platform de Adobe) incrustado como un objeto de flujo adjunto al catálogo del documento. XMP se convirtió en una norma ISO abierta en 2012 (ISO 16684-1).
Los dos almacenes no son lo mismo y pueden discrepar. Tanto la referencia de Adobe como las normas ISO 32000 afirman que XMP es el preferido cuando está presente, y que DocInfo debería tratarse como un reflejo heredado. En ISO 32000-2 (PDF 2.0), el antiguo diccionario DocInfo queda formalmente obsoleto para todo excepto CreationDate y ModDate (que los gestores de firmas todavía usan). En la práctica, casi todos los lectores (Adobe Acrobat, Foxit, Vista Previa en macOS, visores de navegador) leen DocInfo de forma predeterminada y solo recurren a XMP para campos como el de derechos de autor, que DocInfo nunca admitió.
Los campos estándar de DocInfo son Title, Author, Subject, Keywords, Creator (la aplicación que originó el documento, p. ej., «Microsoft Word»), Producer (la aplicación que produjo el PDF propiamente dicho, p. ej., «Adobe PDF Library 17.0»), CreationDate, ModDate (en formato de fecha PDF como D:20240315093000-04'00') y Trapped. XMP organiza los campos en espacios de nombres: dc:title, dc:creator, dc:rights, dc:language de Dublin Core; DocumentID, InstanceID y el registro de edición History de XMP-MM; los marcadores de conformidad de PDF/A y PDF/UA; y cualquier espacio de nombres personalizado que una herramienta quiera añadir. Este editor expone directamente los campos de DocInfo más usados; los campos exclusivos de XMP requieren un editor más especializado.
Una breve historia
El PDF comenzó con el memorando interno de Adobe de 1991 de John Warnock (el documento «Camelot»), que proponía un formato de documento portátil que preservara la fidelidad visual entre dispositivos. Adobe lanzó PDF 1.0 con Acrobat 1.0 en 1993; el diccionario DocInfo estuvo ahí desde el primer día. A lo largo de los años noventa y principios de la década de 2000, el formato añadió cifrado, hipervínculos, formularios, JavaScript, transparencia, accesibilidad de PDF etiquetado (PDF 1.4, 2001) y el mecanismo de metadatos XMP (también PDF 1.4). PDF/A (el subconjunto de archivado que exige XMP incrustado y prohíbe el cifrado) se ratificó como ISO 19005-1 en 2005. Adobe transfirió el PDF a ISO en 2008, donde PDF 1.7 se convirtió en ISO 32000-1:2008. ISO 32000-2:2017 publicó PDF 2.0, cuyo principal cambio en metadatos fue la obsolescencia de DocInfo en favor de XMP. La revisión de 2020 y la publicación gratuita de la especificación por parte de la PDF Association en abril de 2023 hacen que la norma sea ahora de acceso abierto.
El problema de privacidad: qué filtran los PDF
Un PDF creado por el software de oficina habitual difunde bastante más sobre su procedencia de lo que la mayoría de los usuarios cree. De un solo PDF se suele poder extraer:
- El nombre completo del autor. Microsoft Word escribe
Authora partir de la cuenta de Office del usuario o del nombre de usuario de Windows registrado en el momento de la instalación. LibreOffice escribe el nombre y los apellidos del usuario a partir de los ajustes de datos de usuario. Pages en macOS usa el «Nombre completo» del sistema. Un PDF guardado como tal desde cualquiera de ellos hereda el valor incrustado automáticamente. - El historial de edición completo. El
xmpMM:Historyde XMP registra cada evento de guardado y conversión con una marca de tiempo, el nombre del software y un UUID de instancia, lo que produce un registro parcial de revisiones del documento. - Identificación del software hasta la versión y la compilación. El campo
Producersuele leerse como «Microsoft® Word for Microsoft 365» o «Adobe PDF Library 17.00.6» o «Skia/PDF m120» (la impresión a PDF de Chrome). Esto deja una huella identificativa del sistema operativo y el nivel de parches de la estación de trabajo. - Marca de tiempo de creación + marca de tiempo de modificación + el intervalo entre ambas. Una diferencia de 4 segundos sugiere una impresión a PDF; una diferencia de 45 minutos sugiere una edición sustancial. En conjunto, esto puede establecer cuándo, dónde y quién creó un documento.
- EXIF de imágenes incrustadas. Cuando una imagen que lleva coordenadas GPS en sus datos EXIF se arrastra a un documento de Word o InDesign y se exporta a PDF, el flujo de imagen subyacente suele conservar las etiquetas EXIF, incluidas la latitud y la longitud. ExifTool las extraerá incluso de imágenes «incrustadas».
- Anotaciones de control de cambios. Los PDF exportados desde Word con «Mostrar marcas» activado incrustan las iniciales de los revisores y marcas de tiempo en flujos de anotaciones (técnicamente contenido y no metadatos, pero a menudo invisibles hasta que un lector despliega el panel de comentarios).
Casos reales destacados
- Escrito judicial de Manafort (enero de 2019): los abogados defensores de Paul Manafort presentaron un documento judicial usando rectángulos de ocultación dibujados sobre el texto. El texto en sí quedó intacto en el flujo de contenido y fue extraído en cuestión de horas por periodistas mediante un simple copiar y pegar, lo que dejó al descubierto las afirmaciones de que Manafort había compartido datos de sondeos electorales de EE. UU. con un colaborador vinculado a la inteligencia rusa. Los metadatos adjuntos también revelaron el nombre de la máquina del bufete y el software que lo produjo.
- El «expediente dudoso» del Gobierno británico (febrero de 2003): el documento «Iraq, Its Infrastructure of Concealment, Deception and Intimidation» tenía metadatos de historial de edición que nombraban a cuatro autores, incluido un estudiante de posgrado estadounidense cuya tesis de 2002 se había copiado y pegado. El rastro de autoría oculto del documento de Word fue la prueba irrefutable.
- Manual de seguridad de la TSA (diciembre de 2009): la TSA publicó una versión censurada de sus procedimientos operativos estándar de control de pasajeros. Las ocultaciones eran superposiciones de imagen sobre el texto original en un PDF; el texto subyacente era extraíble. El documento completo, incluidos los nombres de los gobiernos aliados cuyos titulares de pasaporte recibían un control reforzado, se filtró.
- «Autor: nombre del bufete de la parte contraria»: incidentes repetidos en bufetes en los que los escritos jurídicos en PDF salientes incluyen el nombre del bufete de la parte contraria en el campo
Author, porque alguien copió y pegó desde un PDF de exhibición de pruebas a un nuevo documento de Word y el documento de destino heredó el autor del original. Muchos bufetes exigen ahora el «Inspector de documento» de Word o el «Sanear documento» de Acrobat antes de cualquier envío externo.
Alcance honesto de esta herramienta
Este editor te permite ver y sobrescribir los campos estándar de DocInfo. Es realmente útil para limpiar nombres de autor antes de enviar un documento al exterior, corregir metadatos de título erróneos que confunden a tu sistema de gestión documental o eliminar la huella de una estación de trabajo de una nota de prensa. No es un saneador completo. En concreto:
- El EXIF de imagen dentro de fotos incrustadas aún puede llevar coordenadas GPS y detalles de la cámara.
- Los comentarios de revisores y de control de cambios almacenados como anotaciones no se eliminan.
- El texto oculto bajo rectángulos de «ocultación» sigue siendo extraíble: dibujar un rectángulo negro sobre el texto no elimina el texto del flujo de contenido del PDF. Esta es la fuente más común de divulgación accidental.
- El registro de edición
xmpMM:Historydel flujo XMP no se borra necesariamente. - Los subconjuntos de fuentes incrustadas pueden identificar la estación de trabajo de origen si se usaron fuentes poco habituales.
- Los puntos de rastreo de impresora (los patrones de micropuntos amarillos que incrustan la mayoría de las impresoras láser en color) son de nivel de contenido y no se ven afectados por la edición de metadatos: el caso de Reality Winner (junio de 2017) dependió de ellos.
Para una pasada de saneamiento completa en un documento sensible, las herramientas adecuadas son el comando «Sanear documento» de Adobe Acrobat Pro, la opción -remove-metadata de la utilidad de línea de comandos de código abierto cpdf, o la directiva -all= de ExifTool seguida de una inspección manual. Los flujos de trabajo sensibles a menudo recrean el documento a partir del texto plano extraído en lugar de intentar depurar el original.
Herramientas para ver los metadatos
- Adobe Acrobat: Archivo → Propiedades. Muestra los campos de DocInfo y un panel aparte de «Metadatos adicionales» para el paquete XMP.
- ExifTool (Phil Harvey), el estándar de oro de la línea de comandos.
exiftool file.pdfimprime todo;exiftool -all= file.pdflo elimina todo. - pdfinfo (parte de poppler-utils), un volcado rápido por línea de comandos de DocInfo más detalles a nivel de página.
- pdf.js / PDF.js (la biblioteca que Firefox usa para renderizar los PDF) expone los metadatos mediante
doc.getMetadata()para la lectura del lado del navegador. - pdf-lib: la biblioteca de JavaScript que impulsa la pasada de edición de esta herramienta; expone
setTitle(),setAuthor(), etc., y vuelve a escribir un PDF totalmente conforme.
Cuándo recurrirías a esto
- Limpiar nombres de autor/creador antes de enviar un documento fuera de tu organización.
- Establecer metadatos de título coherentes para un lote de documentos que acabarán en un sistema de gestión documental o en un catálogo de biblioteca.
- Añadir palabras clave para los sistemas internos de búsqueda de texto completo que las usan como impulso para la localización.
- Corregir el título erróneo cuando «guardar como PDF» heredó un nombre de archivo engañoso.
- Reivindicar derechos de autor / licencia mediante el campo
Authory (para las herramientas que manejan XMP)dc:rights. - Saneamiento rápido de privacidad para documentos rutinarios, aunque consulta la advertencia de alcance anterior para casos de alto riesgo.
Más preguntas
¿Por qué mis ediciones a veces aparecen en DocInfo pero no en XMP (o viceversa)?
Porque los PDF llevan ambos almacenes y pueden discrepar. Este editor escribe en DocInfo (el campo que inspecciona todo lector). XMP se actualiza para los campos que tienen un equivalente claro en DocInfo. Algunos visores (Adobe Acrobat en particular) leen primero XMP; si ves metadatos «obsoletos» después de editar, abre el documento con un lector diferente para confirmar si el problema es exclusivo de XMP o si tu lector simplemente está almacenando en caché la versión antigua.
¿Esta herramienta romperá una firma digital?
Sí, casi siempre. Una firma digital en un PDF protege todo el documento, incluidos los metadatos; modificar cualquier byte rompe la verificación criptográfica de la firma. Si necesitas editar los metadatos de un PDF firmado, tendrás que eliminar primero la firma (con el permiso del firmante), editar los metadatos y hacer que se vuelva a firmar; o aplicar los cambios de metadatos antes de firmar en el flujo de trabajo original.
¿Y los archivos de archivado PDF/A?
Los archivos PDF/A tienen requisitos XMP adicionales (los marcadores pdfaid:part y pdfaid:conformance, además de los campos obligatorios de Dublin Core). Editar el DocInfo de un PDF/A sin actualizar el paquete XMP puede, técnicamente, sacar el archivo de la conformidad con PDF/A. Para los flujos de trabajo de archivado, usa un editor compatible con PDF/A como Acrobat Pro o veraPDF.
¿Cómo creo un PDF «completamente anónimo»?
Para documentos rutinarios: edita aquí el DocInfo para borrar los campos identificativos y luego pasa el resultado por «Sanear documento» de Acrobat o cpdf -remove-metadata. Para una anonimización de alto riesgo (denuncia de irregularidades, periodismo, revelación legal): recrea el PDF desde cero en una máquina diferente usando solo texto plano extraído, sin imágenes que provinieran del original. Imprimir y reescanear también funciona (la capa de OCR del PDF reescaneado se crea de nuevo), a costa del tamaño del archivo y la calidad de imagen.
¿Se envía algo a un servidor?
No. El PDF se analiza y se reescribe con pdf-lib ejecutándose localmente en tu navegador; el archivo modificado se descarga directamente a tu dispositivo. Nada de tu PDF sale de la página, lo cual resulta útil cuando el documento contiene nombres de autor internos, información de clientes o líneas de asunto confidenciales que preferirías no subir a un servicio de terceros. La propia biblioteca pdf-lib se carga una vez desde una CDN pública con verificación de integridad de subrecursos y luego se almacena en caché.