Extraire du texte de fichiers PDF et d’images

Vous avez un document PDF dont vous souhaitez extraire tout le texte ou des fichiers image d’un document numérisé que vous voulez convertir en texte éditable ? Ce sont là quelques-uns des problèmes les plus courants que je rencontre souvent au bureau lorsque je travaille sur des fichiers.

Dans cet article, je vais vous parler de plusieurs façons d’essayer d’extraire du texte d’un PDF ou d’une image. Les résultats de l’extraction varieront en fonction du type et de la qualité du texte contenu dans le PDF ou l’image. De même, vos résultats varieront en fonction de l’outil que vous utilisez. Il est donc préférable d’essayer le plus grand nombre possible d’options ci-dessous pour obtenir les meilleurs résultats.

Extraire du texte d’une image ou d’un PDF

La façon la plus simple et la plus rapide de commencer est d’essayer un service d’extraction de texte PDF en ligne. Ces services sont généralement gratuits et peuvent vous donner exactement ce que vous recherchez sans avoir à installer quoi que ce soit sur votre ordinateur. En voici deux que j’ai utilisés avec des résultats très bons, voire excellents :

ExtractPDF

ExtractPDF est un outil gratuit qui permet d’extraire les images, le texte et les polices d’un fichier PDF. La seule limitation est que la taille maximale du fichier PDF est de 10 Mo. C’est un peu juste ; si votre fichier est plus volumineux, essayez l’une des autres méthodes ci-dessous. Choisissez votre fichier, puis cliquez sur le bouton Envoyer le fichier. Les résultats sont normalement très rapides et vous devriez voir un aperçu du texte lorsque vous cliquez sur l’onglet Texte.

Un avantage supplémentaire est qu’il extrait également les images du fichier PDF, au cas où vous en auriez besoin ! Dans l’ensemble, l’outil en ligne fonctionne bien, mais j’ai rencontré quelques documents PDF qui m’ont donné un résultat étrange. Le texte est extrait sans problème, mais pour une raison quelconque, il y a un retour à la ligne après chaque mot ! Ce n’est pas un gros problème pour un fichier PDF court, mais certainement un problème pour les fichiers contenant beaucoup de texte. Si cela vous arrive, essayez l’outil suivant.

OCR en ligne

L’OCR en ligne a généralement fonctionné pour les documents qui n’ont pas été convertis correctement avec ExtractPDF, donc c’est une bonne idée d’essayer les deux services pour voir lequel vous donne un meilleur résultat. L’OCR en ligne possède également des fonctionnalités plus intéressantes qui peuvent s’avérer pratiques pour toute personne ayant un gros fichier PDF et qui n’a besoin de convertir que le texte de quelques pages plutôt que le document entier.

La première chose à faire est de créer un compte gratuit. C’est un peu ennuyeux, mais si vous ne créez pas de compte gratuit, le logiciel ne convertira que partiellement votre PDF, et non l’intégralité du document. De plus, au lieu de ne pouvoir télécharger qu’un document de 5 Mo, vous pouvez télécharger jusqu’à 100 Mo par fichier avec un compte.

Tout d’abord, choisissez une langue, puis le type de formats de sortie que vous souhaitez pour le fichier converti. Vous disposez de plusieurs options et vous pouvez en choisir plusieurs si vous le souhaitez. Sous Document multipage, vous pouvez sélectionner Numéros de page, puis choisir uniquement les pages que vous souhaitez convertir. Ensuite, vous sélectionnez le fichier et cliquez sur Convertir !

Après la conversion, vous serez amené à la section Documents (si vous êtes connecté) où vous pourrez voir combien de pages libres il vous reste et les liens pour télécharger vos fichiers convertis. Il semble que vous ne disposiez que de 25 pages gratuites par jour, donc si vous avez besoin de plus que cela, vous devrez soit attendre un peu, soit acheter des pages supplémentaires.

Online OCR a fait un excellent travail de conversion de mes PDF, car il a pu conserver la mise en page réelle du texte. Dans mon test, j’ai pris un document Word qui utilisait des puces, des tailles de police différentes, etc. et je l’ai converti en PDF. J’ai ensuite utilisé Online OCR pour le reconvertir au format Word et il était identique à 95 % à l’original. C’est assez impressionnant pour moi.

De plus, si vous souhaitez convertir une image en texte, l’OCR en ligne peut le faire tout aussi facilement que l’extraction de texte à partir de fichiers PDF.

SODA PDF

Puisque nous parlons d’OCR d’image à texte, permettez-moi de mentionner un autre bon site Web qui fonctionne très bien sur les images. SODA PDF s’est révélé très bon et très précis lors de l’extraction du texte de mes images de test. J’ai pris quelques photos à partir de mon iPhone de pages de livres, de brochures, etc. et j’ai été surpris de la façon dont il a pu convertir le texte.

Choisissez votre fichier, puis cliquez sur le bouton Télécharger. Sur l’écran suivant, il y a quelques options et un aperçu de l’image. Vous pouvez la recadrer si vous ne voulez pas faire une OCR de l’ensemble de l’image. Cliquez ensuite sur le bouton OCR et votre texte converti apparaîtra sous l’aperçu de l’image. Il n’y a pas non plus de limites, ce qui est très appréciable.

Outre les services en ligne, il existe deux convertisseurs de PDF gratuits que je tiens à mentionner au cas où vous auriez besoin d’un logiciel fonctionnant en local sur votre ordinateur pour effectuer les conversions. Avec les services en ligne, vous aurez toujours besoin d’une connexion Internet, ce qui peut ne pas être possible pour tout le monde. Cependant, j’ai remarqué que la qualité des conversions des logiciels gratuits était nettement moins bonne que celle des sites Web.

CONVERTIO

CONVERTIO est un logiciel gratuit qui fait un assez bon travail d’extraction de texte à partir de fichiers PDF. Une fois que vous l’avez téléchargé et installé, cliquez sur le bouton Ouvrir pour choisir votre fichier PDF. Cliquez ensuite sur Extract text pour lancer le processus.

Il vous demandera un emplacement pour stocker le fichier de sortie texte, puis il commencera l’extraction. Vous pouvez également cliquer sur le bouton Option, qui vous permet de choisir uniquement certaines pages à extraire et le type d’extraction. La deuxième option est intéressante car elle permet d’extraire le texte dans différentes mises en page. Cela vaut la peine d’essayer les trois pour voir laquelle vous donne le meilleur résultat.

PDF2Text Pilot

PDF2Text Pilot fait un travail correct d’extraction de texte. Il n’a pas d’options ; il suffit d’ajouter des fichiers ou des dossiers, de convertir et d’espérer que tout se passe bien. Il fonctionne bien sur certains PDF, mais pour la majorité d’entre eux, il y a de nombreux problèmes.

Il suffit de cliquer sur Ajouter des fichiers, puis sur Convertir. Une fois la conversion terminée, cliquez sur Parcourir pour ouvrir le fichier. L’utilisation de ce programme est variable, alors ne vous attendez pas à grand-chose.

Il convient également de mentionner que si vous êtes dans un environnement d’entreprise ou si vous pouvez mettre la main sur une copie d’Adobe Acrobat au travail, vous pouvez vraiment obtenir de bien meilleurs résultats. Acrobat n’est évidemment pas gratuit, mais il offre des options de conversion des PDF au format Word, Excel et HTML. Il est également le plus à même de conserver la structure du document d’origine et de convertir les textes complexes.

Voir aussi :   Configuration requise pour Fall Guys: spécifications, manettes et plus encore!

Trucs et astuces du jeu Sims 4, codes de cheat pour votre PC et plus encore..

Comment partager des jeux sur la PS5