Éditeur de métadonnées PDF, gratuit
Modifiez les métadonnées PDF, titre, auteur, sujet, mots-clés, etc. Tourne entièrement dans votre navigateur.
Qu'est-ce que les métadonnées PDF ?
Les métadonnées PDF sont des informations sur le document qui n'apparaissent pas dans le contenu visible. Elles incluent le titre, l'auteur, le sujet, les mots-clés, la date de création et d'autres propriétés. Ces informations facilitent l'organisation, la recherche et l'identification des documents.
Pourquoi modifier les métadonnées PDF ?
- Organisation · définissez des métadonnées cohérentes sur vos documents pour un meilleur classement et une meilleure recherche.
- Professionnalisme · assurez-vous que vos documents affichent les bons auteur et titre.
- Référencement & découverte · les mots-clés dans les métadonnées aident à la découvrabilité.
- Correction des propriétés · corrigez des informations d'auteur, de titre ou de sujet incorrectes ou manquantes.
Questions fréquentes
Modifier les métadonnées change-t-il le contenu du PDF ?
Non. Seules les métadonnées sont modifiées. Le contenu, les pages et la mise en forme du PDF restent strictement identiques.
Puis-je modifier les métadonnées d'un PDF chiffré ?
Si le PDF est protégé par mot de passe, vous ne pouvez pas modifier ses métadonnées avec cet outil. Le fichier doit d'abord être déverrouillé.
Quelle est la limite de taille de fichier ?
Cet outil prend en charge les PDF jusqu'à 10 Mo. Les fichiers plus volumineux peuvent prendre plus de temps à traiter.
Ce que sont réellement les métadonnées PDF
Un fichier PDF peut porter des métadonnées au niveau du document à deux endroits à la fois. Le mécanisme d'origine, présent depuis PDF 1.0 (1993), est le dictionnaire d'informations du document (appelé « DocInfo » ou /Info) : un objet clé/valeur référencé depuis le trailer du PDF. PDF 1.4 (2001) a ajouté un second mécanisme, plus riche : un flux de métadonnées XMP, un paquet XML (RDF/XML conforme à l'eXtensible Metadata Platform d'Adobe) intégré comme objet de flux rattaché au catalogue du document. XMP est devenu une norme ISO ouverte en 2012 (ISO 16684-1).
Les deux dépôts ne sont pas identiques et peuvent diverger. La référence d'Adobe comme les normes ISO 32000 indiquent que XMP est à privilégier lorsqu'il est présent, et que DocInfo doit être traité comme un miroir hérité. Dans ISO 32000-2 (PDF 2.0), l'ancien dictionnaire DocInfo est formellement déprécié pour tout, sauf CreationDate et ModDate (que les gestionnaires de signature utilisent encore). En pratique, presque tous les lecteurs (Adobe Acrobat, Foxit, Aperçu sur macOS, visionneuses de navigateur) lisent DocInfo par défaut et ne se rabattent sur XMP que pour des champs comme le copyright que DocInfo n'a jamais pris en charge.
Les champs DocInfo standard sont Title, Author, Subject, Keywords, Creator (l'application à l'origine du document, p. ex. « Microsoft Word »), Producer (l'application qui a produit le PDF proprement dit, p. ex. « Adobe PDF Library 17.0 »), CreationDate, ModDate (au format de date PDF comme D:20240315093000-04'00') et Trapped. XMP organise les champs en espaces de noms : dc:title, dc:creator, dc:rights, dc:language de Dublin Core ; DocumentID, InstanceID et le journal d'édition History de XMP-MM ; les marqueurs de conformité PDF/A et PDF/UA ; et tout espace de noms personnalisé qu'un outil souhaite ajouter. Cet éditeur expose directement les champs DocInfo les plus utilisés ; les champs propres à XMP requièrent un éditeur plus spécialisé.
Un bref historique
Le PDF est né d'une note interne d'Adobe rédigée par John Warnock en 1991 (le document « Camelot »), proposant un format de document portable qui préservait la fidélité visuelle d'un appareil à l'autre. Adobe a livré PDF 1.0 avec Acrobat 1.0 en 1993 ; le dictionnaire DocInfo était présent dès le premier jour. Au fil des années 1990 et du début des années 2000, le format a ajouté le chiffrement, les hyperliens, les formulaires, JavaScript, la transparence, l'accessibilité du PDF balisé (PDF 1.4, 2001) et le mécanisme de métadonnées XMP (également PDF 1.4). Le PDF/A (le sous-ensemble d'archivage qui impose un XMP intégré et interdit le chiffrement) a été ratifié sous le nom d'ISO 19005-1 en 2005. Adobe a transféré le PDF à l'ISO en 2008, où PDF 1.7 est devenu ISO 32000-1:2008. ISO 32000-2:2017 a publié PDF 2.0, le principal changement concernant les métadonnées étant la dépréciation de DocInfo au profit de XMP. La révision de 2020 et la publication gratuite de la spécification par la PDF Association en avril 2023 font que la norme est désormais librement accessible.
Le problème de confidentialité : ce que les PDF divulguent
Un PDF créé par une suite bureautique classique révèle bien plus sur sa provenance que la plupart des utilisateurs ne l'imaginent. À partir d'un seul PDF, on peut généralement extraire :
- Le nom complet de l'auteur. Microsoft Word renseigne
Authorà partir du compte Office de l'utilisateur ou du nom d'utilisateur Windows enregistré au moment de l'installation. LibreOffice inscrit les prénom et nom de l'utilisateur depuis les paramètres de données utilisateur. Pages sur macOS utilise le « Nom complet » du système. Un PDF enregistré sous un nouveau nom depuis l'un de ces logiciels hérite automatiquement de la valeur intégrée. - L'historique complet des modifications. Le champ
xmpMM:Historyde XMP enregistre chaque événement de sauvegarde et de conversion avec un horodatage, le nom du logiciel et un UUID d'instance, produisant un journal de révision partiel du document. - Identification du logiciel jusqu'à la version et la build. Le champ
Produceraffiche généralement quelque chose comme « Microsoft® Word for Microsoft 365 », « Adobe PDF Library 17.00.6 » ou « Skia/PDF m120 » (l'impression-vers-PDF de Chrome). Cela révèle par empreinte le système d'exploitation du poste de travail et son niveau de correctifs. - Horodatage de création + horodatage de modification + l'écart entre les deux. Un écart de 4 secondes évoque une impression-vers-PDF ; un écart de 45 minutes évoque une édition substantielle. Ensemble, ces éléments peuvent établir quand, où et par qui un document a été rédigé.
- EXIF des images intégrées. Lorsqu'une image porteuse de coordonnées GPS EXIF est glissée dans un document Word ou InDesign puis exportée en PDF, le flux d'image sous-jacent conserve souvent les balises EXIF, y compris la latitude et la longitude. ExifTool les extraira même d'images « intégrées ».
- Annotations de suivi des modifications. Les PDF exportés depuis Word avec « Afficher les marques » activé intègrent les initiales des relecteurs et des horodatages dans des flux d'annotation (techniquement du contenu plutôt que des métadonnées, mais souvent invisibles jusqu'à ce qu'un lecteur déploie le volet des commentaires).
Cas concrets notables
- Dépôt judiciaire de Manafort (janvier 2019) : les avocats de la défense de Paul Manafort ont déposé un document judiciaire en utilisant des rectangles de caviardage PDF tracés par-dessus le texte. Le texte lui-même était intact dans le flux de contenu et a été extrait en quelques heures par des journalistes à l'aide d'un simple copier-coller, révélant des affirmations selon lesquelles Manafort avait partagé des données de sondage américaines avec un associé lié au renseignement russe. Les métadonnées qui l'accompagnaient nommaient également la machine du cabinet d'avocats et le logiciel qui l'avait produit.
- Le « dossier douteux » du gouvernement britannique (février 2003) : le document « Iraq, Its Infrastructure of Concealment, Deception and Intimidation » comportait des métadonnées d'historique d'édition qui nommaient quatre auteurs, dont un étudiant américain de troisième cycle dont la thèse de 2002 avait été copiée-collée. La trace de paternité cachée du document Word a été la preuve accablante.
- Manuel de sécurité de la TSA (décembre 2009) : la TSA a publié une version caviardée de ses procédures opératoires normalisées de contrôle des passagers. Les caviardages étaient des superpositions d'image au-dessus du texte d'origine dans un PDF ; le texte sous-jacent était extractible. Le document complet, y compris les noms des gouvernements alliés dont les titulaires de passeport faisaient l'objet d'un contrôle renforcé, a fuité.
- « Auteur : nom du cabinet de la partie adverse » : incidents répétés dans des cabinets d'avocats où des mémoires PDF sortants incluent le nom du cabinet de la partie adverse dans le champ
Author, parce que quelqu'un a copié-collé depuis un PDF de communication de pièces vers un nouveau document Word, et que le document de destination a hérité de l'auteur de la source. De nombreux cabinets exigent désormais la fonction « Inspecteur de document » de Word ou la commande « Assainir le document » d'Acrobat avant tout envoi externe.
Le périmètre réel de cet outil
Cet éditeur vous permet de consulter et d'écraser les champs DocInfo standard. Il est réellement utile pour nettoyer les noms d'auteur avant d'envoyer un document à l'extérieur, corriger des métadonnées de titre erronées qui perturbent votre système de gestion documentaire, ou retirer l'empreinte d'un poste de travail d'un communiqué de presse. Ce n'est pas un outil d'assainissement complet. En particulier :
- L'EXIF d'image au sein des photos intégrées peut encore porter des coordonnées GPS et des détails sur l'appareil photo.
- Le suivi des modifications et les commentaires des relecteurs stockés sous forme d'annotations ne sont pas supprimés.
- Le texte masqué sous des rectangles de « caviardage » reste extractible : tracer un rectangle noir par-dessus du texte ne retire pas le texte du flux de contenu du PDF. C'est la source la plus courante de divulgation accidentelle.
- Le journal d'édition
xmpMM:Historydu flux XMP n'est pas nécessairement effacé. - Les sous-ensembles de polices intégrés peuvent identifier le poste de travail d'origine si des polices inhabituelles ont été utilisées.
- Les points de traçage d'imprimante (motifs de micropoints jaunes que la plupart des imprimantes laser couleur intègrent) relèvent du contenu et ne sont pas affectés par l'édition des métadonnées : l'affaire Reality Winner (juin 2017) reposait sur eux.
Pour une passe d'assainissement complète sur un document sensible, les bons outils sont la commande « Assainir le document » d'Adobe Acrobat Pro, l'utilitaire en ligne de commande open source cpdf et son option -remove-metadata, ou la directive -all= d'ExifTool, suivie d'une inspection manuelle. Les flux de travail sensibles recréent souvent le document à partir du texte brut extrait plutôt que d'essayer de nettoyer l'original.
Outils pour visualiser les métadonnées
- Adobe Acrobat : Fichier → Propriétés. Affiche les champs DocInfo et un volet séparé « Métadonnées supplémentaires » pour le paquet XMP.
- ExifTool (Phil Harvey), la référence absolue en ligne de commande.
exiftool file.pdfaffiche tout ;exiftool -all= file.pdfsupprime tout. - pdfinfo (intégré à poppler-utils), un vidage CLI rapide de DocInfo plus des détails au niveau des pages.
- pdf.js / PDF.js (la bibliothèque que Firefox utilise pour afficher les PDF) expose les métadonnées via
doc.getMetadata()pour une lecture côté navigateur. - pdf-lib : la bibliothèque JavaScript qui propulse la passe d'édition de cet outil ; elle expose
setTitle(),setAuthor(), etc., et réécrit un PDF entièrement conforme.
Quand recourir à cet outil
- Nettoyer les noms d'auteur/créateur avant d'envoyer un document hors de votre organisation.
- Définir des métadonnées de titre cohérentes pour un lot de documents qui aboutiront dans un système de gestion documentaire ou un catalogue de bibliothèque.
- Ajouter des mots-clés pour les systèmes internes de recherche en texte intégral qui s'en servent comme levier de découverte.
- Corriger un titre erroné quand un « enregistrer au format PDF » a hérité d'un nom de fichier trompeur.
- Faire valoir un droit d'auteur / une licence via le champ
Authoret (pour les outils qui gèrent XMP) le champdc:rights. - Assainissement rapide de la confidentialité pour les documents courants, mais voyez la mise en garde sur le périmètre ci-dessus pour les cas à enjeux élevés.
Plus de questions
Pourquoi mes modifications apparaissent-elles parfois dans DocInfo mais pas dans XMP (ou inversement) ?
Parce que les PDF portent les deux dépôts et qu'ils peuvent diverger. Cet éditeur écrit dans DocInfo (le champ que chaque lecteur inspecte). XMP est mis à jour pour les champs qui ont un équivalent DocInfo clair. Certaines visionneuses (Adobe Acrobat en particulier) lisent XMP en premier ; si vous voyez des métadonnées « périmées » après modification, ouvrez le document avec un autre lecteur pour déterminer si le problème ne concerne que XMP ou si votre lecteur ne fait que mettre en cache l'ancienne version.
Cet outil va-t-il invalider une signature numérique ?
Oui, presque toujours. Une signature numérique sur un PDF protège l'intégralité du document, métadonnées comprises ; modifier le moindre octet invalide la vérification cryptographique de la signature. Si vous devez modifier les métadonnées d'un PDF signé, il vous faudra soit retirer d'abord la signature (avec l'autorisation du signataire), modifier les métadonnées, puis le faire resigner ; soit appliquer les changements de métadonnées avant la signature, dans le flux de travail d'origine.
Qu'en est-il des fichiers d'archivage PDF/A ?
Les fichiers PDF/A ont des exigences XMP supplémentaires (les marqueurs pdfaid:part et pdfaid:conformance, plus des champs Dublin Core obligatoires). Modifier le DocInfo d'un PDF/A sans mettre à jour le paquet XMP peut techniquement faire sortir le fichier de la conformité PDF/A. Pour les flux de travail d'archivage, utilisez un éditeur compatible PDF/A comme Acrobat Pro ou veraPDF.
Comment créer un PDF « complètement anonyme » ?
Pour les documents courants : modifiez le DocInfo ici pour effacer les champs identifiants, puis faites passer le résultat par l'« Assainir le document » d'Acrobat ou cpdf -remove-metadata. Pour une anonymisation à enjeux élevés (lancement d'alerte, journalisme, divulgation judiciaire) : recréez le PDF de zéro sur une autre machine en n'utilisant que le texte brut extrait, sans aucune image provenant de l'original. L'impression suivie d'une renumérisation fonctionne aussi (la couche d'OCR du PDF renumérisé est créée de toutes pièces), au prix de la taille du fichier et de la qualité d'image.
Quelque chose est-il envoyé à un serveur ?
Non. Le PDF est analysé et réécrit par pdf-lib qui s'exécute localement dans votre navigateur ; le fichier modifié est téléchargé directement sur votre appareil. Rien de votre PDF ne quitte la page : utile quand le document contient des noms d'auteur internes, des informations sur des clients ou des objets confidentiels que vous préféreriez ne pas téléverser vers un service tiers. La bibliothèque pdf-lib elle-même se charge une seule fois depuis un CDN public avec vérification d'intégrité de sous-ressource, puis est mise en cache.