Convertidor gratuito de PDF a texto

Extraiga todo el contenido de texto de archivos PDF al instante. Descargue como TXT o copie al portapapeles. Sus archivos nunca salen de su dispositivo.

Sus archivos nunca salen de su dispositivo
Suelte el archivo PDF aquí o haga clic para buscar

Admite PDF · hasta 50 MB

Estadísticas de extracción
0 Páginas
0 Caracteres
0 Palabras

Cómo funciona

  1. Cargar PDF: Suelte o seleccione un solo archivo PDF para extraer el texto.
  2. Configurar opciones: Elija el estilo del separador de página y si se deben incluir los números de página.
  3. Extraer texto: Haga clic en "Extraer texto" para procesar el PDF y mostrar el contenido.
  4. Descargar o copiar: Copie el texto extraído al portapapeles o descárguelo como archivo TXT.

¿Por qué extraer texto de un PDF?

Convertir el texto de un PDF en texto plano es útil para procesar el contenido de documentos, buscar dentro de los PDF, importar datos a otras aplicaciones, crear copias de seguridad del contenido textual o analizar el texto de un documento. Esta herramienta extrae todo el texto preservando el orden de lectura, lo que la hace perfecta para informes, artículos de investigación, contratos y otros documentos con mucho texto.

Características

Preguntas frecuentes

¿Puedo extraer texto de PDF escaneados?

Esta herramienta extrae texto de PDF que contienen texto seleccionable. Los PDF escaneados (basados en imágenes) no contienen texto extraíble y requerirían OCR (reconocimiento óptico de caracteres), que esta herramienta no proporciona. Para documentos escaneados, utilice primero una herramienta de OCR.

¿Cuál es el límite de tamaño de archivo?

Se admiten archivos de hasta 50 MB. Los archivos más grandes pueden funcionar dependiendo de la memoria disponible de su navegador, pero la extracción será más lenta.

¿La herramienta conserva el formato?

El texto extraído es texto plano, por lo que el formato como negritas, cursivas y colores no se conserva. Sin embargo, el contenido y el orden del texto se mantienen con la mayor precisión posible.

¿Puedo extraer texto en el móvil?

Sí. Esta herramienta funciona en navegadores de escritorio, tableta y móvil. Simplemente toque para seleccionar un archivo PDF y extraer el texto.

¿Se sube mi PDF a un servidor?

No. Toda la extracción de texto ocurre localmente en su navegador usando PDF.js. Su PDF nunca sale de su dispositivo, garantizando privacidad y seguridad completas.

¿Puedo extraer texto de PDF protegidos con contraseña?

Sí, si el PDF está protegido con una contraseña de usuario (no una contraseña de propietario). Deberá eliminar primero la contraseña usando otra herramienta, y luego extraer el texto con esta.

¿Qué es un extractor de texto PDF?

Un extractor de texto PDF saca el texto incrustado de un documento PDF como texto plano UTF-8 que puede pegar en cualquier lugar. El resultado son solo los caracteres: sin fuentes, sin colores, sin diseño. Esto es fundamentalmente diferente del OCR (Reconocimiento Óptico de Caracteres), que lee píxeles de una imagen y adivina qué letras representan. La extracción lee el texto directamente del flujo de contenido del PDF, por lo que es exacta e instantánea; el OCR es aproximado y lento.

La razón por la que funciona la extracción es que la mayoría de los PDFs almacenan el texto como operadores de glifos posicionados (Tj para cadenas de texto individuales, TJ para arreglos con ajustes) junto con coordenadas x e y en la página. El extractor recorre el flujo de contenido de cada página, recolecta cada operador de glifo con su posición, y reensambla el orden de lectura. Para prosa directa esto es esencialmente perfecto. Para diseños de varias columnas, notas al pie y tablas complejas, el extractor depende de heurísticas que en su mayoría funcionan pero pueden producir sorpresas.

Esta herramienta usa pdf.js, el renderizador PDF JavaScript que Mozilla inició en 2011 y se incluye con Firefox. Todo se ejecuta en su navegador: el archivo PDF se carga en memoria, se analiza localmente, el texto se extrae en su máquina, y el resultado aparece en un área de texto que puede copiar o descargar. Ningún archivo se sube a un servidor. La biblioteca maneja PDF 1.0 hasta PDF 2.0 (ISO 32000-2) y la mayoría de los esquemas de cifrado modernos.

Qué hay dentro de la herramienta

La parte superior de la herramienta es una zona de arrastre: haga clic para elegir un archivo PDF o arrastre uno desde su administrador de archivos. El límite de 50 MB es un límite cómodo de memoria del navegador; pdf.js puede manejar archivos más grandes pero la extracción se ralentiza una vez que el documento supera unos pocos cientos de páginas. Tan pronto como se carga un archivo, un panel de información muestra el nombre del archivo, el número de páginas y el tamaño del archivo para que pueda confirmar que eligió el documento correcto.

Dos opciones de extracción se sitúan debajo de la información del archivo. Incluir números de página alterna si el número de cada página se antepone al texto extraído. Separador de página le permite elegir cómo se dividen las páginas: una barra etiquetada (--- Página 3 ---), una línea en blanco, un marcador explícito [PAGE BREAK], o nada en absoluto. La opción de línea en blanco es mejor para reimportar a una herramienta de escritura; la barra etiquetada es mejor para navegar documentos largos.

Haga clic en Extraer Texto y la herramienta recorre cada página, saca el contenido del texto, aplica su configuración de separador, y vuelca el resultado en el área de texto debajo. Las estadísticas aparecen debajo: páginas procesadas, recuento total de caracteres, recuento total de palabras. Dos botones le permiten copiar el resultado al portapapeles o descargarlo como archivo .txt. La salida es UTF-8 plano, lista para pegar en una nota, un correo electrónico, una hoja de cálculo o un editor de código.

Historia y contexto

PostScript y el problema de la página imprimible (1982)

John Warnock y Chuck Geschke dejaron Xerox PARC y fundaron Adobe en 1982. Su primer producto fue PostScript, un lenguaje de descripción de página que podía describir cualquier página imprimible usando un pequeño conjunto de operadores de dibujo: mover, línea, curva, rellenar, colocar glifo. PostScript permitía que cualquier impresora reprodujera cualquier página exactamente, pero fue diseñado para imprimir, no para ver o editar. PostScript es la base técnica sobre la que se construyó posteriormente el PDF.

PDF 1.0 y Acrobat (1993)

En 1991 Warnock hizo circular un documento interno de Adobe llamado Camelot describiendo un formato de archivo de documento portátil derivado de PostScript pero optimizado para visualización en pantalla y acceso aleatorio a páginas. El primer lanzamiento público fue Acrobat 1.0 y PDF 1.0 el 15 de junio de 1993. La adopción temprana fue lenta: los visores costaban dinero y los archivos eran grandes. Adobe hizo gratuito el Acrobat Reader en 1994 y el formato despegó a finales de los 90 para formularios, manuales técnicos y documentos gubernamentales.

PDF/A para archivos a largo plazo (2005)

PDF/A fue publicado como ISO 19005-1 en octubre de 2005. Es un subconjunto restringido de PDF diseñado para archivo: sin dependencias externas (todas las fuentes incrustadas), sin JavaScript, sin cifrado, sin audio o video. El punto es que un archivo PDF/A abierto en 50 años se verá exactamente igual que hoy. La mayoría de los archivos nacionales, tribunales y sistemas de registros corporativos requieren PDF/A para almacenamiento a largo plazo. La extracción de texto de PDF/A es inusualmente confiable porque el formato exige mapas de fuentes ToUnicode.

PDF se convierte en estándar ISO (2008)

Adobe entregó el control de la especificación PDF a la Organización Internacional de Normalización en 2008. ISO 32000-1:2008 codificó PDF 1.7 como un estándar internacional abierto. Desde este punto en adelante cualquiera podía implementar un lector PDF totalmente conforme sin licenciar PDF de Adobe. ISO 32000-2 siguió en 2017 (PDF 2.0), añadiendo soporte nativo para características más nuevas como mejores firmas digitales y renderizado HDR.

pdf.js abre el visor PDF en navegador (2011)

Andreas Gal en Mozilla lanzó pdf.js como un proyecto experimental a mediados de 2011 para renderizar documentos PDF usando solo HTML5, JavaScript y Canvas. Antes de pdf.js, ver un PDF en un navegador requería un plugin (plugin Adobe Reader, Foxit, o similar). pdf.js hizo posible la visualización PDF nativa basada en navegador. Mozilla lo incluyó en Firefox 19 en febrero de 2013, eliminando la necesidad de cualquier plugin PDF. Es la biblioteca que este extractor usa.

Chrome lanza PDFium (2014)

Google liberó PDFium como código abierto en mayo de 2014. PDFium es un motor PDF diferente, derivado del SDK PDF comercial Foxit, y es lo que potencia el renderizado PDF dentro de Chrome y Edge. PDFium está escrito en C++; pdf.js está escrito en JavaScript. Desde el punto de vista de la extracción, ambos motores producen texto similar, pero el soporte PDF/A y el manejo de formularios varían. Esta herramienta usa pdf.js porque se ejecuta nativamente en cualquier navegador sin plugins o binarios compilados.

Flujos de trabajo prácticos

Extraer citas de un artículo de investigación

Suelte el PDF, haga clic en Extraer, desplácese para encontrar el pasaje que desea, y cópielo en sus notas o gestor de citas. Los artículos de una sola columna salen limpios. Los artículos de dos columnas (típicos del estilo de conferencia y revista) pueden entrelazar texto de las columnas izquierda y derecha; en ese caso copie cada columna manualmente en lugar de confiar en la extracción global. Para citas largas, prefiera el separador de página de línea en blanco para que sobrevivan los saltos de párrafo.

Buscar cláusulas específicas en un contrato

Los contratos legales suelen tener cientos de páginas y la búsqueda integrada del lector PDF pierde contexto. Extraiga el texto completo, pegue en un editor de texto, y use Buscar o grep con una ventana de contexto más amplia (5 líneas antes y después). Esto es más rápido que desplazarse y le permite escribir una expresión regular para patrones como todas las cláusulas que mencionan responsabilidad o terminación. Mantenga el separador de página etiquetado para poder localizar la ubicación original en el PDF.

Texto en bloque para un proyecto de escritura o traducción

Cuando necesita traducir, reescribir o resumir un documento PDF largo, el primer paso es obtener el texto en bruto. Extraiga una vez, guarde el archivo .txt y trabaje desde ahí. Evite copiar directamente desde un lector PDF, que a menudo introduce saltos de línea en los lugares incorrectos y rompe palabras a través de los límites de página. El separador de línea en blanco funciona bien como entrada para una herramienta de traducción o un LLM.

Llevar recibos a una hoja de cálculo

Los recibos y facturas modernos enviados por correo electrónico son a menudo PDFs con texto incrustado en lugar de escaneos. Extraiga, luego analice los totales con una expresión regular. Para formatos repetidos (un proveedor que envía el mismo diseño de factura cada mes), un script de cinco líneas puede extraer los campos de fecha, total e impuestos a una hoja de cálculo automáticamente. Los recibos escaneados no funcionarán; esos necesitan OCR primero.

Leer ebooks en el dispositivo equivocado

PDF es un mal formato para lectores electrónicos porque el tamaño de la página es fijo; el texto no se redistribuye. Extraiga el texto, pegue en un convertidor EPUB, y ahora el libro se redistribuye en cualquier pantalla. Los números de página y las notas al pie se pueden eliminar manualmente antes de la conversión. Este truco es más útil para libros técnicos y actas de conferencias que los editores solo publican como PDF.

Compartir actas de reuniones como texto plano

Cuando un colega envía actas de reunión como PDF y desea pegar un resumen en Slack o un wiki, extraiga primero. El texto sale limpio y puede pegar cualquier porción sin artefactos de fuente extraños o formato oculto. Para actas con elementos de acción, el separador de página de barra etiquetada ayuda a localizar la sección del documento original si surgen preguntas más adelante.

Errores comunes

Los PDFs escaneados producen salida vacía

Si un PDF fue creado escaneando un documento en papel (un escaneo plano, una foto de teléfono o una salida de copiadora), contiene una imagen de la página, no el texto subyacente. El extractor recorre el flujo de contenido buscando operadores de texto y no encuentra ninguno, por lo que la salida está vacía o contiene solo números de página perdidos si esos fueron tecleados manualmente. La solución es pasar el PDF por OCR primero (herramientas como Tesseract, Adobe Acrobat Reconocer Texto, o ABBYY FineReader), que añade una capa de texto oculta que esta herramienta puede luego extraer.

Los diseños de varias columnas pueden entrelazar el texto

Las revistas académicas, las revistas y los periódicos suelen usar dos o tres columnas por página. pdf.js extrae cada ejecución de texto por su posición en la página y usa heurísticas para reconstruir el orden de lectura, pero esas heurísticas asumen un flujo de una sola columna. El resultado para una página de varias columnas puede ser: primera línea de la columna izquierda, primera línea de la columna derecha, segunda línea de la columna izquierda, y así sucesivamente. Para estos diseños, extraiga una página a la vez y seleccione las columnas a ojo, o use una herramienta consciente del diseño como la biblioteca Python pdfplumber.

Las codificaciones de fuente personalizadas producen galimatías

Un PDF puede usar cualquier fuente, y la fuente puede mapear sus IDs de glifo a cualquier código de carácter que el autor elija. PDF/A y la mayoría de los PDFs modernos incluyen un mapa ToUnicode que dice que el glifo 5 significa la letra A, pero los PDFs más antiguos o descuidados a veces omiten el mapa. Sin ToUnicode, el texto extraído son los IDs de glifos en bruto (a menudo apareciendo como cajas, números o letras aleatorias), y no hay manera de recuperar los caracteres originales sin OCR. Si solo palabras específicas parecen incorrectas, la causa generalmente es un ToUnicode faltante para una sola fuente incrustada.

Las ligaduras pueden extraerse como caracteres combinados

La tipografía profesional combina ciertos pares de letras (fi, fl, ff, ffi) en glifos únicos llamados ligaduras. El PDF puede almacenar la ligadura como punto de código Unicode U+FB01 (la ligadura fi) en lugar de las dos letras f e i. El texto extraído contiene el punto de código de la ligadura, que la mayoría de los editores renderizan correctamente pero algunas herramientas de procesamiento de texto se atragantan. Si está alimentando la salida a un índice de búsqueda o herramienta de lenguaje natural, ejecute un reemplazo de una línea para normalizar U+FB01 a fi y U+FB02 a fl.

Los encabezados y pies de página se repiten en cada página

La mayoría de los PDFs tienen un encabezado corriente (título del capítulo, título del documento) y pie de página (número de página, línea de copyright) en cada página. El extractor los recoge porque son texto real en la página, y termina con la misma línea repitiéndose 200 veces en un documento de 200 páginas. La solución es un simple script de deduplicación o un pase manual de buscar y reemplazar después de la extracción. Para documentos largos, este es a veces el mayor paso de limpieza.

Las ecuaciones matemáticas y fórmulas rara vez se extraen limpiamente

Las matemáticas se posicionan usando glifos individuales de fuentes de símbolos especiales (Computer Modern, STIX). El extractor lee los glifos pero pierde las relaciones espaciales que hacen que x al cuadrado sea diferente de x por 2. Las ecuaciones en línea como E igual a mc al cuadrado salen confusas, y las ecuaciones en bloque salen como secuencias de símbolos desordenadas. Para PDFs pesados en matemáticas, use una herramienta que preserve la estructura de las ecuaciones (MathPix snip, Adobe Acrobat Pro con reflow de ecuaciones), o extraiga las ecuaciones como imágenes.

Privacidad y manejo de datos

El archivo PDF que arrastra a la herramienta permanece en su dispositivo todo el tiempo. pdf.js es una biblioteca JavaScript que se ejecuta en su navegador, no en un servidor remoto. El archivo se carga en memoria por su navegador, se analiza página por página, y el texto extraído aparece en el área de texto en la misma página. Nunca subimos el archivo, nunca registramos su contenido, y nunca lo analizamos. Esto importa porque los PDFs a menudo contienen información confidencial: contratos, registros médicos, correspondencia legal, estados financieros.

Una vez que la página se carga, la herramienta funciona sin conexión. Puede desconectarse de internet, soltar un PDF, extraerlo, y copiar el resultado sin que sus datos toquen jamás otra máquina. El texto extraído solo deja su máquina si elige pegarlo o enviarlo a algún lugar usted mismo. Muchos extractores PDF SaaS envían su archivo a un servicio en la nube para procesamiento; para documentos sensibles eso es exactamente lo que quiere evitar.

Cuándo no usar esta herramienta

PDFs escaneados o solo imágenes (necesitan OCR primero)

Si su PDF es un escaneo de papel o una serie de fotos, no hay texto incrustado para extraer; esta herramienta devuelve resultados vacíos. Ejecute el PDF a través de un motor OCR primero para añadir una capa de texto: Tesseract (gratis, línea de comandos, muy bueno para inglés y escrituras latinas), Adobe Acrobat Pro (pago, mejor retención de diseño), o ABBYY FineReader (pago, mejor para escrituras no latinas y documentos complejos). Después del OCR, este extractor funcionará normalmente.

Formularios PDF rellenables con valores de campos

Un formulario PDF almacena valores de campos (el texto que tecleó en un campo de nombre, el estado marcado de una casilla de verificación) por separado del texto estático de la página. Este extractor solo lee el texto estático de la página, por lo que los valores del formulario se pierden. Para extraer datos del formulario, use una biblioteca de formularios PDF que lea directamente el diccionario AcroForm o XFA (pdftk, Adobe Acrobat Exportar Datos, o la API de form-field de python-pdfplumber).

Cuando necesita preservar el formato

El texto plano pierde todo el formato: negrita, cursiva, listas, tablas, encabezados, colores, fuentes. Si necesita un documento editable que preserve el diseño, use un convertidor PDF a Word en su lugar (que construye un documento Word estructurado con estilos de párrafo y tablas), o PDF a HTML para salida apta para web. PDF a texto es para el caso en que realmente solo necesita las palabras.

PDFs cifrados sin la contraseña

Los PDFs pueden cifrarse con una contraseña de usuario (requerida para abrir el archivo) o una contraseña de propietario (restringe acciones como imprimir o copiar). pdf.js requiere la contraseña de usuario para abrir un archivo cifrado; sin ella, no es posible extraer. Elimine la contraseña primero con una herramienta de desbloqueo de PDF (solo en documentos a los que tiene derecho a acceder) y luego extraiga. La contraseña del propietario a veces bloquea la copia dentro de Adobe Reader pero no bloquea la extracción aquí.

Más preguntas

¿Qué es una capa de texto PDF?

Una capa de texto es la parte de un PDF que almacena caracteres como texto legible por máquina (operadores Tj y TJ en el flujo de contenido) en lugar de como píxeles. Los PDFs digitales creados por Word, LaTeX o herramientas web-a-PDF siempre tienen una capa de texto. Los PDFs escaneados no, hasta que añada una con OCR. La capa de texto es lo que permite que la búsqueda, copiar-pegar, los lectores de pantalla y herramientas como este extractor funcionen.

¿Por qué parte de mi texto extraído está confuso o fuera de orden?

Los PDFs no almacenan texto en orden de lectura; lo almacenan como operadores de glifos en posiciones x e y en la página. El extractor reconstruye el orden de lectura ordenando de arriba a abajo y de izquierda a derecha dentro de las filas. Esto funciona para el flujo de una sola columna pero puede entrelazar columnas, mezclar encabezados con texto del cuerpo, o dividir párrafos en saltos de columna. Para diseños complejos, intente copiar página por página o use una biblioteca Python consciente del diseño como pdfplumber.

¿Puedo extraer texto de un PDF de cientos de páginas?

Sí, pero espere que tome más tiempo y use más memoria. Cada página se analiza secuencialmente en JavaScript, que es de un solo hilo, por lo que un libro de 500 páginas puede tomar 20 a 60 segundos dependiendo de su máquina y la complejidad de las páginas. El techo de memoria del navegador (algunos GB para Chrome de escritorio, menos para móvil) limita el tamaño total del archivo más que el conteo de páginas. Si un PDF gigante se cuelga, intente dividirlo primero con la herramienta divisor de PDF y extraer en trozos.

¿Qué es PDF/A y por qué su texto es más fácil de extraer?

PDF/A es el subconjunto archival de PDF definido por ISO 19005. Requiere que todas las fuentes estén incrustadas con un mapa ToUnicode, que todos los perfiles de color sean autocontenidos, y que no se referencien recursos externos. El requisito ToUnicode es lo que hace que la extracción sea confiable: cada glifo en el documento se mapea de vuelta a un carácter Unicode estándar. Los archivos nacionales, tribunales y sistemas de registros corporativos usan PDF/A precisamente para que el texto siga siendo extraíble décadas después.

¿Qué tan precisa es la extracción en comparación con Adobe Acrobat?

Para PDFs digitales sencillos la salida es idéntica carácter por carácter. Acrobat tiene heurísticas más sofisticadas para manejar diseños complejos de varias columnas y tablas, por lo que para esos casos específicos su salida puede ser más legible. pdf.js (esta herramienta) ha sido desarrollado activamente desde 2011 y ahora pasa la mayoría de las pruebas de cumplimiento de la especificación PDF. Para documentos típicos de oficina e investigación la diferencia es insignificante.

¿La herramienta soporta escrituras no latinas (chino, árabe, cirílico)?

Sí, siempre que el PDF tenga un mapa ToUnicode adecuado para esos caracteres (que cualquier PDF moderno tiene). El texto extraído es UTF-8 y se renderiza correctamente en cualquier editor moderno. Las escrituras de derecha a izquierda como árabe y hebreo se extraen en orden lógico, no en orden visual, que es lo que quiere para procesamiento posterior. La extracción CJK (chino, japonés, coreano) es totalmente soportada porque pdf.js maneja el sistema CIDFont que PDF usa para esas escrituras.

Herramientas relacionadas