Conversor gratuito de PDF para texto

Extraia instantaneamente todo o conteúdo de texto de arquivos PDF. Baixe como TXT ou copie para a área de transferência. Seus arquivos nunca saem do seu dispositivo.

Seus arquivos nunca saem do seu dispositivo
Solte o arquivo PDF aqui ou clique para navegar

Suporta PDF · até 50 MB

Estatísticas de extração
0 Páginas
0 Caracteres
0 Palavras

Como funciona

  1. Carregar PDF: Solte ou selecione um único arquivo PDF para extrair o texto.
  2. Configurar opções: Escolha o estilo do separador de página e se deseja incluir os números de página.
  3. Extrair texto: Clique em "Extrair texto" para processar o PDF e exibir o conteúdo.
  4. Baixar ou copiar: Copie o texto extraído para a área de transferência ou baixe-o como arquivo TXT.

Por que extrair texto de PDF?

Converter texto de PDF em texto simples é útil para processar conteúdo de documentos, pesquisar dentro de PDFs, importar dados para outros aplicativos, criar cópias de segurança do conteúdo de texto ou analisar o texto de documentos. Esta ferramenta extrai todo o texto preservando a ordem de leitura, tornando-a perfeita para relatórios, artigos de pesquisa, contratos e outros documentos com muito texto.

Recursos

Perguntas frequentes

Posso extrair texto de PDFs digitalizados?

Esta ferramenta extrai texto de PDFs que contêm texto selecionável. PDFs digitalizados (baseados em imagens) não contêm texto extraível e exigiriam OCR (reconhecimento óptico de caracteres), que esta ferramenta não fornece. Para documentos digitalizados, use primeiro uma ferramenta de OCR.

Qual é o limite de tamanho de arquivo?

Arquivos de até 50 MB são suportados. Arquivos maiores podem funcionar dependendo da memória disponível do seu navegador, mas a extração será mais lenta.

A ferramenta preserva a formatação?

O texto extraído é texto simples, portanto formatação como negrito, itálico e cores não é preservada. No entanto, o conteúdo e a ordem do texto são mantidos da forma mais precisa possível.

Posso extrair texto no celular?

Sim. Esta ferramenta funciona em navegadores de desktop, tablet e celular. Basta tocar para selecionar um arquivo PDF e extrair o texto.

Meu PDF é enviado para um servidor?

Não. Toda a extração de texto acontece localmente no seu navegador usando PDF.js. Seu PDF nunca sai do seu dispositivo, garantindo privacidade e segurança completas.

Posso extrair texto de PDFs protegidos por senha?

Sim, se o PDF estiver protegido com uma senha de usuário (não uma senha de proprietário). Você precisaria remover a senha primeiro usando outra ferramenta, depois extrair o texto com esta.

O que é um extrator de texto PDF?

Um extrator de texto PDF puxa o texto incorporado de um documento PDF para texto simples UTF-8 que você pode colar em qualquer lugar. O resultado são apenas os caracteres: sem fontes, sem cores, sem layout. Isso é fundamentalmente diferente do OCR (Reconhecimento Óptico de Caracteres), que lê pixels de uma imagem e adivinha quais letras eles representam. A extração lê o texto diretamente do fluxo de conteúdo do PDF, então é exata e instantanea; o OCR é aproximado e lento.

A razão pela qual a extração funciona é que a maioria dos PDFs armazena o texto como operadores de glifos posicionados (Tj para strings de texto únicas, TJ para arrays com ajustes) junto com coordenadas x e y na página. O extrator percorre o fluxo de conteúdo de cada página, coleta cada operador de glifo com sua posição, e remonta a ordem de leitura. Para prosa simples isso é essencialmente perfeito. Para layouts de várias colunas, notas de rodapé e tabelas complexas, o extrator depende de heurísticas que na maior parte funcionam mas podem produzir surpresas.

Esta ferramenta usa o pdf.js, o renderizador PDF JavaScript que a Mozilla iniciou em 2011 e que acompanha o Firefox. Tudo é executado no seu navegador: o arquivo PDF é carregado na memória, analisado localmente, o texto é extraído na sua máquina, e o resultado aparece em uma área de texto que voce pode copiar ou baixar. Nenhum arquivo é enviado para um servidor. A biblioteca lida com PDF 1.0 até PDF 2.0 (ISO 32000-2) e a maioria dos esquemas de criptografia modernos.

O que há dentro da ferramenta

O topo da ferramenta é uma zona de arrastar: clique para escolher um arquivo PDF ou arraste um do seu gerenciador de arquivos. O limite de 50 MB é um limite confortável da memória do navegador; o pdf.js pode lidar com arquivos maiores mas a extração desacelera assim que o documento ultrapassa algumas centenas de páginas. Assim que um arquivo é carregado, um painel de informações mostra o nome do arquivo, contagem de páginas e tamanho do arquivo para que voce possa confirmar que escolheu o documento certo.

Duas opções de extração ficam abaixo das informações do arquivo. Incluir números de página alterna se o número de cada página é prefixado ao texto extraído. Separador de página permite escolher como as páginas são divididas: uma barra rotulada (--- Página 3 ---), uma linha em branco, um marcador explícito [PAGE BREAK], ou nada. A opção linha em branco é melhor para reimportar para uma ferramenta de escrita; a barra rotulada é melhor para navegar em documentos longos.

Clique em Extrair Texto e a ferramenta percorre cada página, puxa o conteúdo do texto, aplica sua configuração de separador, e despeja o resultado na área de texto abaixo. Estatísticas aparecem abaixo: páginas processadas, contagem total de caracteres, contagem total de palavras. Dois botões permitem copiar o resultado para a área de transferencia ou baixá-lo como arquivo .txt. A saída é UTF-8 simples, pronta para colar em uma nota, e-mail, planilha ou editor de código.

História e contexto

PostScript e o problema da página imprimível (1982)

John Warnock e Chuck Geschke deixaram a Xerox PARC e fundaram a Adobe em 1982. Seu primeiro produto foi o PostScript, uma linguagem de descrição de página que podia descrever qualquer página imprimível usando um pequeno conjunto de operadores de desenho: mover, linha, curva, preencher, colocar glifo. PostScript permitia que qualquer impressora reproduzisse qualquer página exatamente, mas foi projetado para impressão, não para visualização ou edição. PostScript é a fundação técnica sobre a qual o PDF foi posteriormente construído.

PDF 1.0 e Acrobat (1993)

Em 1991 Warnock circulou um documento interno da Adobe chamado Camelot descrevendo um formato de arquivo de documento portátil derivado do PostScript mas otimizado para visualização em tela e acesso aleatório a páginas. O primeiro lançamento público foi Acrobat 1.0 e PDF 1.0 em 15 de junho de 1993. A adoção inicial foi lenta: visualizadores custavam dinheiro e arquivos eram grandes. A Adobe tornou o Acrobat Reader gratuito em 1994 e o formato decolou no final dos anos 1990 para formulários, manuais técnicos e documentos governamentais.

PDF/A para arquivos de longo prazo (2005)

PDF/A foi publicado como ISO 19005-1 em outubro de 2005. É um subconjunto restrito de PDF projetado para arquivamento: sem dependencias externas (todas as fontes incorporadas), sem JavaScript, sem criptografia, sem áudio ou vídeo. O ponto é que um arquivo PDF/A aberto em 50 anos terá exatamente a mesma aparencia de hoje. A maioria dos arquivos nacionais, tribunais e sistemas de registros corporativos exigem PDF/A para armazenamento de longo prazo. A extração de texto de PDF/A é incomumente confiável porque o formato exige mapas de fonte ToUnicode.

PDF se torna um padrão ISO (2008)

A Adobe entregou o controle da especificação PDF à Organização Internacional de Normalização em 2008. ISO 32000-1:2008 codificou PDF 1.7 como um padrão internacional aberto. A partir deste ponto qualquer um podia implementar um leitor PDF totalmente conforme sem licenciar PDF da Adobe. ISO 32000-2 seguiu em 2017 (PDF 2.0), adicionando suporte nativo para recursos mais novos como assinaturas digitais melhores e renderização HDR.

pdf.js abre o visualizador PDF no navegador (2011)

Andreas Gal na Mozilla lançou o pdf.js como projeto experimental em meados de 2011 para renderizar documentos PDF usando apenas HTML5, JavaScript e Canvas. Antes do pdf.js, visualizar um PDF em um navegador exigia um plugin (plugin Adobe Reader, Foxit ou similar). pdf.js tornou possível a visualização PDF nativa baseada em navegador. A Mozilla o incluiu no Firefox 19 em fevereiro de 2013, removendo a necessidade de qualquer plugin PDF. É a biblioteca que este extrator usa.

Chrome lança PDFium (2014)

O Google abriu o PDFium em maio de 2014. PDFium é um motor PDF diferente, derivado do SDK PDF comercial Foxit, e é o que alimenta a renderização PDF dentro do Chrome e Edge. PDFium é escrito em C++; pdf.js é escrito em JavaScript. Do ponto de vista da extração ambos os motores produzem texto similar, mas o suporte PDF/A e o manuseio de formulários variam. Esta ferramenta usa pdf.js porque executa nativamente em qualquer navegador sem plugins ou binários compilados.

Fluxos de trabalho práticos

Extrair citações de um artigo de pesquisa

Solte o PDF, clique em Extrair, role até encontrar a passagem desejada, e copie para suas notas ou gerenciador de citações. Artigos de coluna única saem limpos. Artigos de duas colunas (típicos de estilo de conferencia e revista) podem intercalar texto das colunas esquerda e direita; nesse caso copie cada coluna manualmente em vez de confiar na extração global. Para citações longas, prefira o separador de página linha em branco para que as quebras de parágrafo sobrevivam.

Pesquisar cláusulas específicas em um contrato

Contratos jurídicos frequentemente tem centenas de páginas e a busca embutida do leitor PDF perde contexto. Extraia o texto completo, cole em um editor de texto, e use Localizar ou grep com uma janela de contexto maior (5 linhas antes e depois). Isso é mais rápido que rolar e permite escrever uma expressão regular para padrões como todas as cláusulas que mencionam responsabilidade ou rescisão. Mantenha o separador de página rotulado para poder localizar a localização original no PDF.

Texto em massa para um projeto de escrita ou tradução

Quando voce precisa traduzir, reescrever ou resumir um documento PDF longo, o primeiro passo é obter o texto bruto. Extraia uma vez, salve o arquivo .txt, e trabalhe a partir daí. Evite copiar diretamente de um leitor PDF, que frequentemente introduz quebras de linha nos lugares errados e quebra palavras através dos limites de página. O separador de linha em branco funciona bem como entrada para uma ferramenta de tradução ou um LLM.

Puxar recibos para uma planilha

Recibos e faturas modernos enviados por e-mail são frequentemente PDFs com texto incorporado em vez de digitalizações. Extraia, depois analise os totais com uma expressão regular. Para formatos repetidos (um fornecedor que envia o mesmo layout de fatura todo mes), um script de cinco linhas pode puxar os campos de data, total e imposto para uma planilha automaticamente. Recibos digitalizados não funcionarão; aqueles precisam de OCR primeiro.

Ler ebooks no dispositivo errado

PDF é um formato ruim para e-readers porque o tamanho da página é fixo; o texto não reflui. Extraia o texto, cole em um conversor EPUB, e agora o livro reflui em qualquer tela. Números de página e notas de rodapé podem ser removidos manualmente antes da conversão. Este truque é mais útil para livros técnicos e atas de conferencia que editores só publicam como PDF.

Compartilhar atas de reunião como texto simples

Quando um colega envia atas de reunião como PDF e voce quer colar um resumo no Slack ou em uma wiki, extraia primeiro. O texto sai limpo e voce pode colar qualquer porção sem artefatos de fonte estranhos ou formatação oculta. Para atas com itens de ação, o separador de página barra rotulada ajuda a localizar a seção do documento original se surgirem perguntas mais tarde.

Armadilhas comuns

PDFs digitalizados produzem saída vazia

Se um PDF foi criado digitalizando um documento em papel (uma digitalização plana, foto de telefone, ou saída de copiadora), ele contém uma imagem da página, não o texto subjacente. O extrator percorre o fluxo de conteúdo procurando operadores de texto e não encontra nenhum, então a saída é vazia ou contém apenas números de página perdidos se aqueles foram digitados manualmente. A correção é executar o PDF através de OCR primeiro (ferramentas como Tesseract, Adobe Acrobat Reconhecer Texto, ou ABBYY FineReader), que adiciona uma camada de texto oculta que esta ferramenta pode então extrair.

Layouts de várias colunas podem intercalar texto

Revistas acadêmicas, revistas e jornais geralmente usam duas ou tres colunas por página. pdf.js extrai cada execução de texto por sua posição na página e usa heurísticas para reconstruir a ordem de leitura, mas essas heurísticas assumem fluxo de coluna única. O resultado para uma página de várias colunas pode ser: primeira linha da coluna esquerda, primeira linha da coluna direita, segunda linha da coluna esquerda, e assim por diante. Para esses layouts, extraia uma página por vez e selecione as colunas a olho, ou use uma ferramenta consciente de layout como a biblioteca Python pdfplumber.

Codificações de fonte personalizadas produzem confusão

Um PDF pode usar qualquer fonte, e a fonte pode mapear seus IDs de glifo para qualquer código de caractere que o autor escolher. PDF/A e a maioria dos PDFs modernos incluem um mapa ToUnicode que diz que o glifo 5 significa a letra A, mas PDFs mais antigos ou desleixados às vezes pulam o mapa. Sem ToUnicode, o texto extraído são os IDs de glifo brutos (frequentemente aparecendo como caixas, números ou letras aleatórias), e não há maneira de recuperar os caracteres originais sem OCR. Se apenas palavras específicas parecerem erradas, a causa é geralmente um ToUnicode faltando para uma única fonte incorporada.

Ligaduras podem extrair como caracteres combinados

Tipografia profissional combina certos pares de letras (fi, fl, ff, ffi) em glifos únicos chamados ligaduras. O PDF pode armazenar a ligadura como ponto de código Unicode U+FB01 (a ligadura fi) em vez das duas letras f e i. O texto extraído contém o ponto de código da ligadura, que a maioria dos editores renderiza corretamente mas algumas ferramentas de processamento de texto engasgam. Se voce está alimentando a saída em um índice de pesquisa ou ferramenta de linguagem natural, execute uma substituição de uma linha para normalizar U+FB01 para fi e U+FB02 para fl.

Cabeçalhos e rodapés se repetem em todas as páginas

A maioria dos PDFs tem um cabeçalho corrente (título do capítulo, título do documento) e rodapé (número de página, linha de copyright) em cada página. O extrator os pega porque eles são texto real na página, e voce acaba com a mesma linha se repetindo 200 vezes em um documento de 200 páginas. A correção é um script simples de desduplicação ou uma passada manual de localizar e substituir após a extração. Para documentos longos, esse é às vezes o maior passo de limpeza.

Equações matemáticas e fórmulas raramente extraem limpas

Matemática é posicionada usando glifos individuais de fontes de símbolos especiais (Computer Modern, STIX). O extrator le os glifos mas perde as relações espaciais que tornam x ao quadrado diferente de x vezes 2. Equações inline como E igual a mc ao quadrado saem embaralhadas, e equações em bloco saem como sequencias de símbolos desordenadas. Para PDFs pesados em matemática, use uma ferramenta que preserva a estrutura da equação (MathPix snip, Adobe Acrobat Pro com reflow de equação), ou extraia as equações como imagens.

Privacidade e tratamento de dados

O arquivo PDF que voce solta na ferramenta permanece no seu dispositivo o tempo todo. pdf.js é uma biblioteca JavaScript que é executada no seu navegador, não em um servidor remoto. O arquivo é carregado na memória pelo seu navegador, analisado página por página, e o texto extraído aparece na área de texto na mesma página. Nunca enviamos o arquivo, nunca registramos seu conteúdo, e nunca o analisamos. Isso importa porque PDFs frequentemente contém informações confidenciais: contratos, registros médicos, correspondencia jurídica, demonstrações financeiras.

Uma vez que a página é carregada, a ferramenta funciona offline. Voce pode desconectar da internet, soltar um PDF, extraí-lo, e copiar o resultado sem seus dados nunca tocarem outra máquina. O texto extraído só deixa sua máquina se voce optar por colá-lo ou enviá-lo para algum lugar voce mesmo. Muitos extratores PDF SaaS enviam seu arquivo para um serviço em nuvem para processamento; para documentos sensíveis isso é exatamente o que voce quer evitar.

Quando não usar esta ferramenta

PDFs digitalizados ou apenas imagens (precisam de OCR primeiro)

Se seu PDF é uma digitalização de papel ou uma série de fotos, não há texto incorporado para extrair; esta ferramenta retorna resultados vazios. Execute o PDF através de um motor OCR primeiro para adicionar uma camada de texto: Tesseract (gratuito, linha de comando, muito bom para ingles e escritas latinas), Adobe Acrobat Pro (pago, melhor retenção de layout), ou ABBYY FineReader (pago, melhor para escritas não latinas e documentos complexos). Após o OCR, este extrator funcionará normalmente.

Formulários PDF preenchíveis com valores de campo

Um formulário PDF armazena valores de campo (o texto que voce digitou em um campo de nome, o estado marcado de uma caixa de seleção) separadamente do texto estático da página. Este extrator só le o texto estático da página, então valores de formulário são perdidos. Para extrair dados de formulário, use uma biblioteca de formulário PDF que le o dicionário AcroForm ou XFA diretamente (pdftk, Adobe Acrobat Exportar Dados, ou a API form-field do python-pdfplumber).

Quando voce precisa preservar a formatação

Texto simples perde toda formatação: negrito, itálico, listas, tabelas, títulos, cores, fontes. Se voce precisa de um documento editável que preserva o layout, use um conversor PDF para Word em vez disso (que constrói um documento Word estruturado com estilos de parágrafo e tabelas), ou PDF para HTML para saída amigável à web. PDF para texto é para o caso em que voce genuinamente só precisa das palavras.

PDFs criptografados sem a senha

PDFs podem ser criptografados com uma senha de usuário (necessária para abrir o arquivo) ou uma senha de proprietário (restringe ações como impressão ou cópia). pdf.js exige a senha de usuário para abrir um arquivo criptografado; sem ela, nenhuma extração é possível. Remova a senha primeiro com uma ferramenta de desbloqueio de PDF (apenas em documentos que voce tem o direito de acessar) e depois extraia. A senha do proprietário às vezes bloqueia a cópia dentro do Adobe Reader mas não bloqueia a extração aqui.

Mais perguntas

O que é uma camada de texto PDF?

Uma camada de texto é a parte de um PDF que armazena caracteres como texto legível por máquina (operadores Tj e TJ no fluxo de conteúdo) em vez de como pixels. PDFs digitais criados por Word, LaTeX ou ferramentas web-para-PDF sempre tem uma camada de texto. PDFs digitalizados não tem, até que voce adicione uma com OCR. A camada de texto é o que permite pesquisa, copiar-colar, leitores de tela e ferramentas como este extrator funcionarem.

Por que parte do meu texto extraído está embaralhado ou fora de ordem?

PDFs não armazenam texto em ordem de leitura; eles armazenam como operadores de glifo em posições x e y na página. O extrator reconstrói a ordem de leitura ordenando de cima para baixo e da esquerda para a direita dentro das linhas. Isso funciona para fluxo de coluna única mas pode intercalar colunas, misturar cabeçalhos com texto do corpo, ou dividir parágrafos em quebras de coluna. Para layouts complexos, tente copiar página por página ou use uma biblioteca Python consciente de layout como pdfplumber.

Posso extrair texto de um PDF com centenas de páginas?

Sim, mas espere que demore mais e use mais memória. Cada página é analisada sequencialmente em JavaScript, que é mono-thread, então um livro de 500 páginas pode levar 20 a 60 segundos dependendo da sua máquina e da complexidade das páginas. O teto de memória do navegador (alguns GB para Chrome desktop, menos para móvel) limita o tamanho total do arquivo mais que a contagem de páginas. Se um PDF gigante travar, tente dividi-lo primeiro com a ferramenta divisor de PDF e extrair em pedaços.

O que é PDF/A e por que seu texto é mais fácil de extrair?

PDF/A é o subconjunto arquivístico de PDF definido por ISO 19005. Exige que todas as fontes sejam incorporadas com um mapa ToUnicode, que todos os perfis de cor sejam autocontidos, e que nenhum recurso externo seja referenciado. O requisito ToUnicode é o que torna a extração confiável: cada glifo no documento mapeia de volta para um caractere Unicode padrão. Arquivos nacionais, tribunais e sistemas de registros corporativos usam PDF/A precisamente para que o texto permaneça extraível décadas depois.

Quão precisa é a extração comparada ao Adobe Acrobat?

Para PDFs digitais simples a saída é identica caractere por caractere. Acrobat tem heurísticas mais sofisticadas para lidar com layouts complexos de várias colunas e tabelas, então para esses casos específicos sua saída pode ser mais legível. pdf.js (esta ferramenta) tem sido desenvolvido ativamente desde 2011 e agora passa a maioria dos testes de conformidade da especificação PDF. Para documentos típicos de escritório e pesquisa a diferença é insignificante.

A ferramenta suporta escritas não latinas (chines, árabe, cirílico)?

Sim, desde que o PDF tenha um mapa ToUnicode adequado para esses caracteres (que qualquer PDF moderno tem). O texto extraído é UTF-8 e renderiza corretamente em qualquer editor moderno. Escritas da direita para a esquerda como árabe e hebraico são extraídas em ordem lógica, não em ordem visual, que é o que voce quer para processamento posterior. Extração CJK (chines, japones, coreano) é totalmente suportada porque pdf.js lida com o sistema CIDFont que PDF usa para essas escritas.

Ferramentas relacionadas