Editor de metadados PDF gratuito
Edite os metadados PDF, título, autor, assunto, palavras-chave etc. Roda inteiramente no seu navegador.
O que são os metadados PDF ?
Os metadados PDF são informações sobre o documento que não aparecem no conteúdo visível. Incluem o título, o autor, o assunto, as palavras-chave, a data de criação e outras propriedades. Essas informações facilitam a organização, a busca e a identificação dos documentos.
Por que editar os metadados PDF ?
- Organização · defina metadados consistentes em seus documentos para melhor classificação e busca.
- Profissionalismo · garanta que seus documentos exibam o autor e o título corretos.
- Indexação & descoberta · as palavras-chave nos metadados ajudam na descoberta.
- Correção de propriedades · corrija informações de autor, título ou assunto incorretas ou ausentes.
Perguntas frequentes
Editar os metadados altera o conteúdo do PDF ?
Não. Apenas os metadados são modificados. O conteúdo, as páginas e a formatação do PDF permanecem exatamente idênticos.
Posso editar os metadados de um PDF criptografado ?
Se o PDF estiver protegido por senha, você não pode editar seus metadados com esta ferramenta. O arquivo deve primeiro ser desbloqueado.
Qual é o limite de tamanho do arquivo ?
Esta ferramenta suporta PDFs até 10 MB. Arquivos maiores podem levar mais tempo para serem processados.
O que são, de fato, os metadados de PDF
Um arquivo PDF pode carregar metadados em nível de documento em dois lugares ao mesmo tempo. O mecanismo original, presente desde o PDF 1.0 (1993), é o Document Information Dictionary (chamado de «DocInfo» ou /Info): um objeto de chave/valor referenciado a partir do trailer do PDF. O PDF 1.4 (2001) acrescentou um segundo mecanismo, mais rico, um fluxo de metadados XMP, um pacote XML (RDF/XML em conformidade com a eXtensible Metadata Platform da Adobe) embutido como um objeto de stream anexado ao catálogo do documento. O XMP se tornou um padrão ISO aberto em 2012 (ISO 16684-1).
Os dois repositórios não são iguais e podem divergir. Tanto a referência da Adobe quanto os padrões ISO 32000 dizem que o XMP é preferido quando presente, e que o DocInfo deve ser tratado como um espelho legado. Na ISO 32000-2 (PDF 2.0), o antigo dicionário DocInfo está formalmente obsoleto para tudo, exceto CreationDate e ModDate (que os manipuladores de assinatura ainda usam). Na prática, quase todo leitor (Adobe Acrobat, Foxit, Pré-Visualização no macOS, visualizadores de navegador) lê o DocInfo por padrão e só recorre ao XMP para campos como direitos autorais, que o DocInfo nunca suportou.
Os campos padrão do DocInfo são Título, Autor, Assunto, Palavras-chave, Criador (o aplicativo que originou o documento, por exemplo, «Microsoft Word»), Produtor (o aplicativo que produziu o PDF de fato, por exemplo, «Adobe PDF Library 17.0»), CreationDate, ModDate (no formato de data do PDF, como D:20240315093000-04'00') e Trapped. O XMP organiza os campos em namespaces: dc:title, dc:creator, dc:rights, dc:language do Dublin Core; DocumentID, InstanceID do XMP-MM e o log de edição History; marcadores de conformidade PDF/A e PDF/UA; e quaisquer namespaces personalizados que uma ferramenta queira adicionar. Este editor expõe diretamente os campos do DocInfo mais usados; os campos exclusivos do XMP exigem um editor mais especializado.
Uma breve história
O PDF começou com um memorando interno da Adobe de John Warnock, de 1991 (o artigo «Camelot»), propondo um formato de documento portátil que preservasse a fidelidade visual entre dispositivos. A Adobe lançou o PDF 1.0 com o Acrobat 1.0 em 1993; o dicionário DocInfo estava lá desde o primeiro dia. Ao longo dos anos 1990 e do início dos anos 2000, o formato acrescentou criptografia, hiperlinks, formulários, JavaScript, transparência, acessibilidade de PDF marcado (PDF 1.4, 2001) e o mecanismo de metadados XMP (também PDF 1.4). O PDF/A (o subconjunto de arquivamento que exige XMP embutido e proíbe criptografia) foi ratificado como ISO 19005-1 em 2005. A Adobe transferiu o PDF para a ISO em 2008, onde o PDF 1.7 se tornou a ISO 32000-1:2008. A ISO 32000-2:2017 publicou o PDF 2.0, sendo a principal mudança de metadados a descontinuação do DocInfo em favor do XMP. A revisão de 2020 e o lançamento gratuito da especificação pela PDF Association em abril de 2023 significam que o padrão agora é abertamente acessível.
O problema de privacidade: o que os PDFs vazam
Um PDF criado por um software de escritório típico revela substancialmente mais sobre sua origem do que a maioria dos usuários imagina. De um único PDF, normalmente é possível extrair:
- Nome completo do autor. O Microsoft Word escreve o
Authora partir da conta do Office do usuário ou do nome de usuário do Windows registrado no momento da instalação. O LibreOffice escreve o nome e o sobrenome do usuário a partir das configurações de dados do usuário. O Pages no macOS usa o «Nome completo» do sistema. Um PDF salvo a partir de qualquer um deles herda o valor embutido automaticamente. - Todo o histórico de edição. O
xmpMM:Historydo XMP registra cada evento de salvamento e conversão com um carimbo de data/hora, o nome do software e um UUID de instância, produzindo um log parcial de revisões do documento. - Identificação do software até a versão e o build. O campo
Producernormalmente aparece como «Microsoft® Word for Microsoft 365» ou «Adobe PDF Library 17.00.6» ou «Skia/PDF m120» (a impressão para PDF do Chrome). Isso deixa uma impressão digital do sistema operacional e do nível de patch da estação de trabalho. - Carimbo de data/hora de criação + carimbo de data/hora de modificação + o intervalo entre eles. Um intervalo de 4 segundos sugere uma impressão para PDF; um intervalo de 45 minutos sugere edição substancial. Juntos, eles podem estabelecer quando, onde e por quem um documento foi criado.
- EXIF de imagem embutida. Quando uma imagem que carrega coordenadas GPS no EXIF é arrastada para um documento do Word ou do InDesign e exportada para PDF, o stream de imagem subjacente muitas vezes mantém as tags EXIF, incluindo latitude e longitude. O ExifTool as extrai até de imagens «embutidas».
- Anotações de controle de alterações. PDFs exportados do Word com o «Mostrar Marcação» ativado embutem as iniciais dos revisores e carimbos de data/hora em streams de anotação (tecnicamente conteúdo, e não metadados, mas muitas vezes invisíveis até que um leitor expanda o painel de comentários).
Casos notáveis do mundo real
- Petição judicial de Manafort (janeiro de 2019): os advogados de defesa de Paul Manafort protocolaram um documento judicial usando retângulos de tarja de PDF desenhados sobre o texto. O texto em si ficou intocado no stream de conteúdo e foi extraído em poucas horas por repórteres usando um simples copiar e colar, expondo alegações de que Manafort havia compartilhado dados de pesquisas eleitorais dos EUA com um associado ligado à inteligência russa. Os metadados que acompanhavam o documento também nomearam a máquina e o software do escritório de advocacia que o produziram.
- O «dossiê duvidoso» do governo do Reino Unido (fevereiro de 2003): o documento «Iraq, Its Infrastructure of Concealment, Deception and Intimidation» tinha metadados de histórico de edição que nomeavam quatro autores, incluindo um estudante de pós-graduação dos EUA cuja tese de 2002 havia sido copiada e colada. A trilha oculta de autoria do documento do Word foi a prova incriminadora.
- Manual de segurança da TSA (dezembro de 2009): a TSA publicou uma versão com tarjas de seus Procedimentos Operacionais Padrão de triagem de passageiros. As tarjas eram sobreposições de imagem em cima do texto original em um PDF; o texto subjacente era extraível. O documento completo, incluindo os nomes dos governos aliados cujos portadores de passaporte recebiam triagem reforçada, vazou.
- «Autor: nome do escritório da parte adversária»: incidentes repetidos em escritórios de advocacia em que petições em PDF enviadas incluem o nome do escritório da parte adversária no campo
Author, porque alguém copiou e colou de um PDF de discovery para um novo documento do Word e o documento de destino herdou o autor da fonte. Muitos escritórios agora exigem o «Inspetor de Documento» do Word ou o «Sanitizar Documento» do Acrobat antes de qualquer envio externo.
Escopo honesto desta ferramenta
Este editor permite que você visualize e sobrescreva os campos padrão do DocInfo. É genuinamente útil para limpar nomes de autor antes de enviar um documento externamente, corrigir metadados de título errados que estão confundindo o seu sistema de gestão de documentos ou remover a impressão digital de uma estação de trabalho de um comunicado à imprensa. Ele não é um sanitizador completo. Especificamente:
- O EXIF de imagem dentro de fotos embutidas ainda pode carregar coordenadas GPS e detalhes da câmera.
- O controle de alterações e os comentários de revisores armazenados como anotações não são removidos.
- O texto oculto sob retângulos de «tarja» ainda é extraível: desenhar um retângulo preto sobre o texto não remove o texto do stream de conteúdo do PDF. Essa é a fonte mais comum de divulgação acidental.
- O log de edição
xmpMM:Historyno stream XMP não é necessariamente apagado. - Subconjuntos de fontes embutidas podem identificar a estação de trabalho de origem se fontes incomuns foram usadas.
- Pontos de rastreamento de impressora (padrões de micropontos amarelos que a maioria das impressoras laser coloridas embute) são de nível de conteúdo e não são afetados pela edição de metadados; o caso Reality Winner (junho de 2017) dependeu deles.
Para uma passagem de sanitização completa em um documento sensível, as ferramentas certas são o comando «Sanitizar Documento» do Adobe Acrobat Pro, o utilitário de linha de comando de código aberto cpdf com sua opção -remove-metadata, ou a diretiva -all= do ExifTool seguida de inspeção manual. Fluxos de trabalho sensíveis muitas vezes recriam o documento a partir de texto simples extraído, em vez de tentar limpar o original.
Ferramentas para visualizar metadados
- Adobe Acrobat: Arquivo → Propriedades. Mostra os campos do DocInfo e um painel separado de «Metadados Adicionais» para o pacote XMP.
- ExifTool (Phil Harvey), o padrão-ouro da linha de comando.
exiftool file.pdfimprime tudo;exiftool -all= file.pdfremove tudo. - pdfinfo (parte do poppler-utils), um dump rápido por linha de comando do DocInfo mais detalhes em nível de página.
- pdf.js / PDF.js (a biblioteca que o Firefox usa para renderizar PDFs) expõe os metadados via
doc.getMetadata()para leitura no lado do navegador. - pdf-lib: a biblioteca JavaScript que alimenta a passagem de edição desta ferramenta; expõe
setTitle(),setAuthor(), etc., e escreve de volta um PDF totalmente em conformidade.
Quando você recorreria a isto
- Limpar nomes de autor/criador antes de enviar um documento para fora da sua organização.
- Definir metadados de título consistentes para um lote de documentos que vão parar em um sistema de gestão de documentos ou em um catálogo de biblioteca.
- Adicionar palavras-chave para sistemas internos de busca em texto completo que as usam como um impulso na descoberta.
- Corrigir o título errado quando o «salvar como PDF» herdou um nome de arquivo enganoso.
- Declarar direitos autorais / licença via o campo
Authore (para ferramentas que lidam com XMP)dc:rights. - Sanitização rápida de privacidade para documentos rotineiros, embora veja a ressalva de escopo acima para casos de alto risco.
Mais perguntas
Por que minhas edições às vezes aparecem no DocInfo, mas não no XMP (ou vice-versa)?
Porque os PDFs carregam os dois repositórios, e eles podem divergir. Este editor escreve no DocInfo (o campo que todo leitor inspeciona). O XMP é atualizado para os campos que têm um equivalente claro no DocInfo. Alguns visualizadores (o Adobe Acrobat em particular) leem o XMP primeiro; se você vir metadados «desatualizados» depois de editar, abra o documento com um leitor diferente para confirmar se o problema é só do XMP ou se o seu leitor está apenas armazenando em cache a versão antiga.
Esta ferramenta vai quebrar uma assinatura digital?
Sim, quase sempre. Uma assinatura digital em um PDF protege o documento inteiro, incluindo os metadados; modificar qualquer byte quebra a verificação criptográfica da assinatura. Se você precisa editar os metadados de um PDF assinado, vai precisar ou remover a assinatura primeiro (com a permissão de quem assinou), editar os metadados e mandá-lo ser assinado de novo; ou aplicar as mudanças de metadados antes de assinar no fluxo de trabalho original.
E quanto aos arquivos de arquivamento PDF/A?
Os arquivos PDF/A têm requisitos adicionais de XMP (os marcadores pdfaid:part e pdfaid:conformance, mais os campos obrigatórios do Dublin Core). Editar o DocInfo de um PDF/A sem atualizar o pacote XMP pode, tecnicamente, tirar o arquivo da conformidade com o PDF/A. Para fluxos de trabalho de arquivamento, use um editor que conheça o PDF/A, como o Acrobat Pro ou o veraPDF.
Como faço um PDF «completamente anônimo»?
Para documentos rotineiros: edite o DocInfo aqui para limpar os campos de identificação, depois passe o resultado pelo «Sanitizar Documento» do Acrobat ou pelo cpdf -remove-metadata. Para anonimização de alto risco (denúncias, jornalismo, divulgação jurídica): recrie o PDF do zero em uma máquina diferente, usando apenas o texto simples extraído, sem imagens que vieram do original. Imprimir e reescanear também funciona (a camada de OCR do PDF reescaneado é criada do zero), ao custo de tamanho de arquivo e qualidade de imagem.
Algo é enviado a um servidor?
Não. O PDF é interpretado e reescrito pelo pdf-lib rodando localmente no seu navegador; o arquivo modificado é baixado direto para o seu dispositivo. Nada sobre o seu PDF sai da página, o que é útil quando o documento contém nomes de autores internos, informações de clientes ou linhas de assunto confidenciais que você prefere não enviar para um serviço de terceiros. A própria biblioteca pdf-lib carrega de uma CDN pública uma vez, com verificação de integridade de subrecurso (subresource-integrity), e depois fica em cache.