Conversion de PDF en texte en ligne, gratuite

Extrayez instantanément tout le texte de vos fichiers PDF. Téléchargez-le au format TXT ou copiez-le dans le presse-papiers. Vos fichiers ne quittent jamais votre appareil.

Vos fichiers ne quittent jamais votre appareil
Déposez le fichier PDF ici ou cliquez pour parcourir

Prend en charge PDF · jusqu'à 50 Mo

Statistiques d'extraction
0 Pages
0 Caractères
0 Mots

Comment ça marche

  1. Importer le PDF : Déposez ou sélectionnez un fichier PDF pour en extraire le texte.
  2. Configurer les options : Choisissez le style du séparateur de page et s'il faut inclure les numéros de page.
  3. Extraire le texte : Cliquez sur « Extraire le texte » pour traiter le PDF et afficher le contenu.
  4. Télécharger ou copier : Copiez le texte extrait dans le presse-papiers ou téléchargez-le en fichier TXT.

Pourquoi extraire le texte d'un PDF ?

Convertir le texte d'un PDF en texte brut est utile pour traiter le contenu d'un document, effectuer des recherches dans des PDF, importer des données dans d'autres applications, créer des sauvegardes de contenu textuel ou analyser le texte d'un document. Cet outil extrait tout le texte tout en préservant l'ordre de lecture, ce qui est idéal pour les rapports, articles de recherche, contrats et autres documents riches en texte.

Fonctionnalités

Questions fréquentes

Puis-je extraire du texte d'un PDF numérisé ?

Cet outil extrait le texte des PDF qui contiennent du texte sélectionnable. Les PDF numérisés (basés sur des images) ne contiennent pas de texte extractible et nécessitent une OCR (reconnaissance optique de caractères), que cet outil ne fournit pas. Pour les documents numérisés, utilisez d'abord un outil d'OCR.

Quelle est la limite de taille de fichier ?

Les fichiers jusqu'à 50 Mo sont pris en charge. Les fichiers plus volumineux peuvent fonctionner selon la mémoire disponible de votre navigateur, mais l'extraction sera plus lente.

L'outil conserve-t-il la mise en forme ?

Le texte extrait est du texte brut : la mise en forme comme le gras, l'italique et les couleurs n'est donc pas conservée. En revanche, le contenu et l'ordre du texte sont préservés aussi fidèlement que possible.

Puis-je extraire du texte sur mobile ?

Oui. Cet outil fonctionne sur les navigateurs de bureau, tablette et mobile. Il suffit d'appuyer pour sélectionner un fichier PDF et d'en extraire le texte.

Mon PDF est-il envoyé à un serveur ?

Non. Toute l'extraction de texte se fait localement dans votre navigateur grâce à PDF.js. Votre PDF ne quitte jamais votre appareil, ce qui garantit une confidentialité et une sécurité totales.

Puis-je extraire du texte d'un PDF protégé par mot de passe ?

Oui, si le PDF est protégé par un mot de passe utilisateur (et non par un mot de passe propriétaire). Vous devrez d'abord supprimer le mot de passe avec un autre outil, puis extraire le texte avec celui-ci.

Qu'est-ce qu'un extracteur de texte PDF ?

Un extracteur de texte PDF tire le texte intégré d'un document PDF dans du texte brut UTF-8 que vous pouvez coller n'importe où. Le résultat n'est que les caractères : pas de polices, pas de couleurs, pas de mise en page. C'est fondamentalement différent de l'OCR (Reconnaissance Optique de Caractères), qui lit les pixels d'une image et devine quelles lettres ils représentent. L'extraction lit le texte directement depuis le flux de contenu du PDF, donc elle est exacte et instantanée ; l'OCR est approximative et lente.

La raison pour laquelle l'extraction fonctionne est que la plupart des PDF stockent le texte sous forme d'opérateurs de glyphes positionnés (Tj pour les chaînes de texte simples, TJ pour les tableaux avec ajustements) avec des coordonnées x et y sur la page. L'extracteur parcourt le flux de contenu de chaque page, collecte chaque opérateur de glyphe avec sa position, et réassemble l'ordre de lecture. Pour la prose continue, c'est essentiellement parfait. Pour les mises en page multi-colonnes, les notes de bas de page et les tableaux complexes, l'extracteur s'appuie sur des heuristiques qui fonctionnent presque toujours mais peuvent produire des surprises.

Cet outil utilise pdf.js, le moteur de rendu PDF JavaScript que Mozilla a démarré en 2011 et qui est livré avec Firefox. Tout s'exécute dans votre navigateur : le fichier PDF est chargé en mémoire, analysé localement, le texte est extrait sur votre machine, et le résultat apparaît dans une zone de texte que vous pouvez copier ou télécharger. Aucun fichier n'est téléchargé sur un serveur. La bibliothèque gère PDF 1.0 à PDF 2.0 (ISO 32000-2) et la plupart des schémas de chiffrement modernes.

Ce qu'il y a dans l'outil

Le haut de l'outil est une zone de dépôt : cliquez pour choisir un fichier PDF ou faites-en glisser un depuis votre gestionnaire de fichiers. Le plafond de 50 Mo est une limite confortable pour la mémoire du navigateur ; pdf.js peut gérer des fichiers plus volumineux mais l'extraction ralentit une fois que le document dépasse quelques centaines de pages. Dès qu'un fichier est chargé, un panneau d'informations affiche le nom du fichier, le nombre de pages et la taille du fichier afin que vous puissiez confirmer que vous avez choisi le bon document.

Deux options d'extraction se trouvent sous les infos du fichier. Inclure les numéros de page permet d'activer ou non l'ajout du numéro de chaque page au texte extrait. Séparateur de page vous permet de choisir comment les pages sont divisées : une barre étiquetée (--- Page 3 ---), une ligne vide, un marqueur explicite [PAGE BREAK], ou rien du tout. L'option ligne vide convient mieux pour réimporter dans un outil d'écriture ; la barre étiquetée est meilleure pour naviguer dans de longs documents.

Cliquez sur Extraire le texte et l'outil parcourt chaque page, tire le contenu textuel, applique votre réglage de séparateur, et déverse le résultat dans la zone de texte ci-dessous. Les statistiques apparaissent en dessous : pages traitées, nombre total de caractères, nombre total de mots. Deux boutons vous permettent de copier le résultat dans le presse-papiers ou de le télécharger en tant que fichier .txt. La sortie est en UTF-8 brut, prête à être collée dans une note, un e-mail, un tableur, ou un éditeur de code.

Histoire et contexte

PostScript et le problème de la page imprimable (1982)

John Warnock et Chuck Geschke ont quitté Xerox PARC et fondé Adobe en 1982. Leur premier produit était PostScript, un langage de description de page capable de décrire toute page imprimable à l'aide d'un petit ensemble d'opérateurs de dessin : déplacer, ligne, courbe, remplir, placer un glyphe. PostScript permettait à n'importe quelle imprimante de reproduire n'importe quelle page exactement, mais il était conçu pour l'impression, pas pour la visualisation ou l'édition. PostScript est la base technique sur laquelle le PDF a ensuite été construit.

PDF 1.0 et Acrobat (1993)

En 1991 Warnock a fait circuler un document interne d'Adobe appelé Camelot décrivant un format de fichier de document portable dérivé de PostScript mais optimisé pour la visualisation à l'écran et l'accès aléatoire aux pages. La première publication publique a été Acrobat 1.0 et PDF 1.0 le 15 juin 1993. L'adoption précoce a été lente : les visionneuses coûtaient cher et les fichiers étaient volumineux. Adobe a rendu Acrobat Reader gratuit en 1994 et le format a décollé à la fin des années 1990 pour les formulaires, les manuels techniques et les documents gouvernementaux.

PDF/A pour les archives à long terme (2005)

PDF/A a été publié sous la norme ISO 19005-1 en octobre 2005. Il s'agit d'un sous-ensemble restreint de PDF conçu pour l'archivage : pas de dépendances externes (toutes les polices intégrées), pas de JavaScript, pas de chiffrement, pas d'audio ou de vidéo. L'idée est qu'un fichier PDF/A ouvert dans 50 ans aura exactement la même apparence qu'aujourd'hui. La plupart des archives nationales, des tribunaux et des systèmes d'archivage d'entreprise exigent PDF/A pour le stockage à long terme. L'extraction de texte depuis un PDF/A est extraordinairement fiable car le format impose des cartes de polices ToUnicode.

Le PDF devient une norme ISO (2008)

Adobe a remis le contrôle de la spécification PDF à l'Organisation Internationale de Normalisation en 2008. L'ISO 32000-1:2008 a codifié le PDF 1.7 comme norme internationale ouverte. À partir de ce moment, n'importe qui pouvait implémenter un lecteur PDF entièrement conforme sans licencier le PDF auprès d'Adobe. L'ISO 32000-2 a suivi en 2017 (PDF 2.0), ajoutant un support natif pour des fonctionnalités plus récentes comme les signatures numériques améliorées et le rendu HDR.

pdf.js ouvre la visionneuse PDF intégrée au navigateur (2011)

Andreas Gal chez Mozilla a lancé pdf.js en tant que projet expérimental mi-2011 pour rendre les documents PDF en utilisant uniquement HTML5, JavaScript et Canvas. Avant pdf.js, visualiser un PDF dans un navigateur nécessitait un plugin (plugin Adobe Reader, Foxit ou similaire). pdf.js a rendu possible la visualisation PDF native basée sur navigateur. Mozilla l'a intégré dans Firefox 19 en février 2013, supprimant le besoin de tout plugin PDF. C'est la bibliothèque que cet extracteur utilise.

Chrome livre PDFium (2014)

Google a publié PDFium en open source en mai 2014. PDFium est un moteur PDF différent, dérivé du SDK PDF commercial Foxit, et c'est ce qui alimente le rendu PDF dans Chrome et Edge. PDFium est écrit en C++ ; pdf.js est écrit en JavaScript. Du point de vue de l'extraction, les deux moteurs produisent un texte similaire, mais le support PDF/A et la gestion des formulaires varient. Cet outil utilise pdf.js car il s'exécute nativement dans n'importe quel navigateur sans plugins ni binaires compilés.

Flux de travail pratiques

Extraire des citations d'un article de recherche

Déposez le PDF, cliquez sur Extraire, faites défiler pour trouver le passage que vous voulez, et copiez-le dans vos notes ou votre gestionnaire de citations. Les articles à une colonne ressortent proprement. Les articles à deux colonnes (typiques du style de conférence et de revue) peuvent entrelacer le texte des colonnes gauche et droite ; dans ce cas, copiez chaque colonne manuellement plutôt que de vous fier à l'extraction globale. Pour les longues citations, préférez le séparateur de page ligne vide afin que les sauts de paragraphe survivent.

Rechercher des clauses spécifiques dans un contrat

Les contrats juridiques font souvent des centaines de pages et la recherche intégrée du lecteur PDF manque le contexte. Extrayez le texte intégral, collez dans un éditeur de texte, et utilisez Rechercher ou grep avec une fenêtre de contexte plus large (5 lignes avant et après). C'est plus rapide que de défiler et vous permet d'écrire une expression régulière pour des motifs comme toutes les clauses qui mentionnent la responsabilité ou la résiliation. Gardez le séparateur de page étiqueté afin de pouvoir localiser l'emplacement d'origine dans le PDF.

Texte en vrac pour un projet d'écriture ou de traduction

Lorsque vous devez traduire, réécrire ou résumer un long document PDF, la première étape consiste à obtenir le texte brut. Extrayez une fois, sauvegardez le fichier .txt, et travaillez à partir de là. Évitez de copier directement depuis un lecteur PDF, ce qui introduit souvent des sauts de ligne aux mauvais endroits et casse les mots à travers les limites de page. Le séparateur ligne vide fonctionne bien comme entrée pour un outil de traduction ou un LLM.

Importer des reçus dans une feuille de calcul

Les reçus et factures modernes envoyés par e-mail sont souvent des PDF avec du texte intégré plutôt que des scans. Extrayez, puis analysez les totaux avec une expression régulière. Pour les formats répétés (un fournisseur qui envoie la même mise en page de facture chaque mois), un script de cinq lignes peut tirer la date, le total et les champs de taxe dans une feuille de calcul automatiquement. Les reçus scannés ne fonctionneront pas ; ceux-ci ont besoin d'OCR au préalable.

Lire des ebooks sur le mauvais appareil

Le PDF est un mauvais format pour les liseuses car la taille de la page est fixe ; le texte ne se reflowe pas. Extrayez le texte, collez dans un convertisseur EPUB, et maintenant le livre se reflowe sur n'importe quel écran. Les numéros de page et les notes de bas de page peuvent être supprimés manuellement avant la conversion. Cette astuce est surtout utile pour les livres techniques et les actes de conférence que les éditeurs ne publient qu'en PDF.

Partager les comptes-rendus de réunion en texte brut

Lorsqu'un collègue vous envoie des comptes-rendus de réunion en PDF et que vous voulez coller un résumé dans Slack ou un wiki, extrayez d'abord. Le texte ressort propre et vous pouvez coller n'importe quelle portion sans artefacts de police étranges ou formatage caché. Pour les comptes-rendus avec des éléments d'action, le séparateur de page barre étiquetée aide à localiser la section du document d'origine si des questions surviennent plus tard.

Pièges courants

Les PDF scannés produisent une sortie vide

Si un PDF a été créé en scannant un document papier (un scan à plat, une photo de téléphone, ou une sortie de photocopieuse), il contient une image de la page, pas le texte sous-jacent. L'extracteur parcourt le flux de contenu à la recherche d'opérateurs de texte et n'en trouve aucun, donc la sortie est vide ou contient seulement des numéros de page perdus si ceux-ci ont été tapés manuellement. La solution est d'exécuter le PDF à travers l'OCR d'abord (outils comme Tesseract, Adobe Acrobat Reconnaître le texte, ou ABBYY FineReader), qui ajoute une couche de texte cachée que cet outil peut ensuite extraire.

Les mises en page multi-colonnes peuvent entrelacer le texte

Les revues académiques, les magazines et les journaux utilisent généralement deux ou trois colonnes par page. pdf.js extrait chaque séquence de texte par sa position sur la page et utilise des heuristiques pour reconstruire l'ordre de lecture, mais ces heuristiques supposent un flux à une seule colonne. Le résultat pour une page multi-colonnes peut être : première ligne de la colonne gauche, première ligne de la colonne droite, deuxième ligne de la colonne gauche, et ainsi de suite. Pour ces mises en page, extrayez une page à la fois et sélectionnez les colonnes à l'oeil, ou utilisez un outil sensible à la mise en page comme la bibliothèque Python pdfplumber.

Les encodages de police personnalisés produisent du charabia

Un PDF peut utiliser n'importe quelle police, et la police peut mapper ses identifiants de glyphes à n'importe quel code de caractère choisi par l'auteur. PDF/A et la plupart des PDF modernes incluent une carte ToUnicode qui dit que le glyphe 5 signifie la lettre A, mais des PDF plus anciens ou bâclés sautent parfois la carte. Sans ToUnicode, le texte extrait est constitué des identifiants de glyphes bruts (apparaissant souvent comme des cases, des chiffres ou des lettres aléatoires), et il n'y a aucun moyen de récupérer les caractères d'origine sans OCR. Si seuls des mots spécifiques semblent erronés, la cause est généralement un ToUnicode manquant pour une seule police intégrée.

Les ligatures peuvent s'extraire comme caractères combinés

La typographie professionnelle combine certaines paires de lettres (fi, fl, ff, ffi) en glyphes uniques appelés ligatures. Le PDF peut stocker la ligature comme point de code Unicode U+FB01 (la ligature fi) plutôt que les deux lettres f et i. Le texte extrait contient le point de code de la ligature, que la plupart des éditeurs rendent correctement mais certains outils de traitement de texte étouffent. Si vous alimentez la sortie dans un index de recherche ou un outil de langage naturel, exécutez un remplacement d'une ligne pour normaliser U+FB01 en fi et U+FB02 en fl.

Les en-têtes et pieds de page se répètent sur chaque page

La plupart des PDF ont un en-tête courant (titre du chapitre, titre du document) et un pied de page (numéro de page, ligne de copyright) sur chaque page. L'extracteur les ramasse car ce sont du vrai texte sur la page, et vous vous retrouvez avec la même ligne se répétant 200 fois dans un document de 200 pages. La solution est un simple script de déduplication ou un passage manuel de chercher-et-remplacer après l'extraction. Pour les longs documents, c'est parfois la plus grande étape de nettoyage.

Les équations et formules mathématiques s'extraient rarement proprement

Les maths sont positionnées en utilisant des glyphes individuels de polices de symboles spéciales (Computer Modern, STIX). L'extracteur lit les glyphes mais perd les relations spatiales qui rendent x au carré différent de x fois 2. Les équations inline comme E égale mc carré sortent brouillées, et les équations en bloc sortent comme des séquences de symboles désordonnées. Pour les PDF lourds en maths, utilisez un outil qui préserve la structure des équations (MathPix snip, Adobe Acrobat Pro avec reflow d'équations), ou extrayez les équations comme images.

Confidentialité et gestion des données

Le fichier PDF que vous déposez dans l'outil reste sur votre appareil tout le temps. pdf.js est une bibliothèque JavaScript qui s'exécute dans votre navigateur, pas sur un serveur distant. Le fichier est chargé en mémoire par votre navigateur, analysé page par page, et le texte extrait apparaît dans la zone de texte sur la même page. Nous ne téléchargeons jamais le fichier, ne journalisons jamais son contenu, et ne l'analysons jamais. Cela importe car les PDF contiennent souvent des informations confidentielles : contrats, dossiers médicaux, correspondance juridique, états financiers.

Une fois la page chargée, l'outil fonctionne hors ligne. Vous pouvez vous déconnecter d'internet, déposer un PDF, l'extraire, et copier le résultat sans que vos données ne touchent jamais une autre machine. Le texte extrait ne quitte votre machine que si vous choisissez de le coller ou de l'envoyer quelque part vous-même. De nombreux extracteurs PDF SaaS envoient votre fichier à un service cloud pour traitement ; pour les documents sensibles, c'est exactement ce que vous voulez éviter.

Quand ne pas utiliser cet outil

PDF scannés ou uniquement images (besoin d'OCR au préalable)

Si votre PDF est un scan de papier ou une série de photos, il n'y a pas de texte intégré à extraire ; cet outil renvoie des résultats vides. Exécutez le PDF à travers un moteur OCR d'abord pour ajouter une couche de texte : Tesseract (gratuit, ligne de commande, très bon pour l'anglais et les écritures latines), Adobe Acrobat Pro (payant, meilleure rétention de mise en page), ou ABBYY FineReader (payant, meilleur pour les écritures non latines et les documents complexes). Après l'OCR, cet extracteur fonctionnera normalement.

Formulaires PDF remplissables avec valeurs de champs

Un formulaire PDF stocke les valeurs de champs (le texte que vous avez tapé dans un champ de nom, l'état coché d'une case à cocher) séparément du texte statique de la page. Cet extracteur ne lit que le texte statique de la page, donc les valeurs de formulaire sont manquées. Pour extraire les données de formulaire, utilisez une bibliothèque de formulaire PDF qui lit le dictionnaire AcroForm ou XFA directement (pdftk, Adobe Acrobat Exporter les données, ou l'API form-field de python-pdfplumber).

Lorsque vous devez préserver la mise en forme

Le texte brut perd toute mise en forme : gras, italique, listes, tableaux, titres, couleurs, polices. Si vous avez besoin d'un document modifiable qui préserve la mise en page, utilisez un convertisseur PDF-vers-Word à la place (qui construit un document Word structuré avec des styles de paragraphe et des tableaux), ou PDF-vers-HTML pour une sortie adaptée au web. PDF-vers-texte est pour le cas où vous n'avez vraiment besoin que des mots.

PDF chiffrés sans le mot de passe

Les PDF peuvent être chiffrés avec un mot de passe utilisateur (requis pour ouvrir le fichier) ou un mot de passe propriétaire (restreint les actions comme l'impression ou la copie). pdf.js nécessite le mot de passe utilisateur pour ouvrir un fichier chiffré ; sans lui, aucune extraction n'est possible. Supprimez d'abord le mot de passe avec un outil de déverrouillage PDF (uniquement sur les documents auxquels vous avez le droit d'accéder) puis extrayez. Le mot de passe propriétaire bloque parfois la copie dans Adobe Reader mais ne bloque pas l'extraction ici.

Plus de questions

Qu'est-ce qu'une couche de texte PDF ?

Une couche de texte est la partie d'un PDF qui stocke les caractères comme texte lisible par machine (opérateurs Tj et TJ dans le flux de contenu) plutôt que comme pixels. Les PDF numériques créés par Word, LaTeX ou des outils web-vers-PDF ont toujours une couche de texte. Les PDF scannés n'en ont pas, jusqu'à ce que vous en ajoutiez une avec l'OCR. La couche de texte est ce qui permet la recherche, le copier-coller, les lecteurs d'écran et les outils comme cet extracteur de fonctionner.

Pourquoi une partie de mon texte extrait est-elle brouillée ou dans le désordre ?

Les PDF ne stockent pas le texte dans l'ordre de lecture ; ils le stockent comme opérateurs de glyphes aux positions x et y sur la page. L'extracteur reconstruit l'ordre de lecture en triant de haut en bas et de gauche à droite à l'intérieur des lignes. Cela fonctionne pour le flux à une seule colonne mais peut entrelacer les colonnes, mélanger les en-têtes avec le texte du corps, ou couper les paragraphes aux sauts de colonne. Pour les mises en page complexes, essayez de copier page par page ou utilisez une bibliothèque Python sensible à la mise en page comme pdfplumber.

Puis-je extraire le texte d'un PDF de plusieurs centaines de pages ?

Oui, mais attendez-vous à ce que cela prenne plus de temps et utilise plus de mémoire. Chaque page est analysée séquentiellement en JavaScript, qui est mono-thread, donc un livre de 500 pages peut prendre 20 à 60 secondes selon votre machine et la complexité des pages. Le plafond de mémoire du navigateur (quelques Go pour Chrome desktop, moins pour mobile) limite la taille totale du fichier plus que le nombre de pages. Si un PDF géant se bloque, essayez de le diviser d'abord avec l'outil PDF splitter et d'extraire par morceaux.

Qu'est-ce que PDF/A et pourquoi son texte est-il plus facile à extraire ?

PDF/A est le sous-ensemble archival du PDF défini par l'ISO 19005. Il exige que toutes les polices soient intégrées avec une carte ToUnicode, que tous les profils de couleur soient autonomes, et qu'aucune ressource externe ne soit référencée. L'exigence ToUnicode est ce qui rend l'extraction fiable : chaque glyphe du document se mappe vers un caractère Unicode standard. Les archives nationales, les tribunaux et les systèmes d'archivage d'entreprise utilisent PDF/A précisément pour que le texte reste extractible des décennies plus tard.

Quelle est la précision de l'extraction par rapport à Adobe Acrobat ?

Pour les PDF numériques simples, la sortie est identique caractère par caractère. Acrobat a des heuristiques plus sophistiquées pour gérer les mises en page multi-colonnes complexes et les tableaux, donc pour ces cas spécifiques sa sortie peut être plus lisible. pdf.js (cet outil) est activement développé depuis 2011 et passe maintenant la plupart des tests de conformité de la spécification PDF. Pour les documents de bureau et de recherche typiques, la différence est négligeable.

L'outil prend-il en charge les écritures non latines (chinois, arabe, cyrillique) ?

Oui, à condition que le PDF ait une carte ToUnicode correcte pour ces caractères (ce que tout PDF moderne a). Le texte extrait est en UTF-8 et s'affiche correctement dans tout éditeur moderne. Les écritures de droite à gauche comme l'arabe et l'hébreu sont extraites dans l'ordre logique, pas dans l'ordre visuel, ce qui est ce que vous voulez pour un traitement ultérieur. L'extraction CJK (chinois, japonais, coréen) est entièrement prise en charge car pdf.js gère le système CIDFont que le PDF utilise pour ces écritures.

Outils associés