EXTRAIRE LE TEXTE D'UN FICHIER PDF À L'AIDE DE PYTHON

Vous devez tous savoir ce que sont les PDF. En fait, ils constituent l’un des médias numériques les plus importants et les plus utilisés. PDF signifie Portable Document Format . Il utilise .pdf extension. Il permet de présenter et d'échanger des documents de manière fiable, indépendamment du logiciel, du matériel ou du système d'exploitation.

Nous extrairons le texte des fichiers pdf à l'aide de deux bibliothèques Python, pypdf et PyMuPDF , dans cet article.

Extraire du texte d'un fichier PDF à l'aide de la bibliothèque pypdf.

Paquet Python pypdf peut être utilisé pour réaliser ce que nous voulons (extraction de texte), même s'il peut faire plus que ce dont nous avons besoin. Ce package peut également être utilisé pour générer, décrypter et fusionner des fichiers PDF. Note: Pour plus d'informations, reportez-vous à Travailler avec des fichiers PDF en Python

Installation

Pour installer ce package, tapez la commande ci-dessous dans le terminal.

pip install pypdf>

Exemple: PDF d'entrée : extrait-pdf-texte-python

Python3

mathématiques pow java

# importing required modules> from> pypdf>import> PdfReader> > # creating a pdf reader object> reader>=> PdfReader(>'example.pdf'>)> > # printing number of pages in pdf file> print>(>len>(reader.pages))> > # getting a specific page from the pdf file> page>=> reader.pages[>0>]> > # extracting text from page> text>=> page.extract_text()> print>(text)>

Sortir:

extrait-pdf-python

Essayons de comprendre le code ci-dessus en morceaux :

reader = PdfReader('example.pdf')>

Nous avons créé un objet de Lecteur PDF classe de la pypdf module.
Le Lecteur PDF la classe prend un argument de position requis du chemin d’accès au fichier pdf.

print(len(reader.pages))>

pages la propriété donne une liste de Objets de page . Donc, ici, nous pouvons utiliser le seulement() fonction de python pour obtenir le nombre de pages dans le fichier pdf.

page = reader.pages[0]>

Maintenant, comme lecteur.pages est une liste de Objets de page , nous pouvons obtenir un spécifique Page du pdf en appuyant sur l’index de la page. En python, l'indexation de la liste commence à 0, donc lecteur.pages[0] nous donne la première page du fichier pdf.

text = page.extract_text() print(text)>

L'objet Page a une fonction extrait_text() pour extraire le texte de la page pdf.

Extraire du texte d'un fichier PDF à l'aide de la bibliothèque PyMuPDF.

PyMuPDF est une bibliothèque Python qui prend en charge les formats de fichiers tels que XPS, PDF, CBR et CBZ. Mais pour l’instant, dans cet article, nous allons nous concentrer sur les fichiers PDF (Portable Document Format).

Installation

pip install pymupdf pip install fitz>

Pour extraire le texte du pdf, nous devons suivre les étapes suivantes :

Importer la bibliothèque
Document d'ouverture
Extraire du texte

Note: Nous utilisons ici le sample.pdf ; pour obtenir le pdf, utilisez le lien ci-dessous.

exemple.pdf – Lien

1. Importation de la bibliothèque

Python3

angles adjacents

import> fitz>

2. Document d'ouverture

Python3

fichier ouvert en java

doc>=> fitz.>open>(>'sample.pdf'>)>

Ici, nous avons créé un objet appelé doc , et le nom de fichier doit être une chaîne Python.

méthodes mathématiques en Java

3. Extraire du texte

Python3

for> page>in> doc:> >text>=> page.get_text()> >print>(text)>

Ici, nous avons itéré des pages en pdf et utilisé le get_text() méthode pour extraire chaque page du fichier.

Tout le Code pour extraire le texte

Python3

import> fitz> doc>=> fitz.>open>(>'sample.pdf'>)> text>=> ''> for> page>in> doc:> >text>+>=>page.get_text()> print>(text)>

oups concepts en java

Sortir:

Conclusion

Nous avons vu deux bibliothèques Python, pypdf et PyMuPDF , qui peut extraire le texte d'un fichier PDF. Commentez votre bibliothèque préférée parmi les deux bibliothèques ci-dessus.

TechCodeview

Extraire du texte d'un fichier PDF à l'aide de la bibliothèque pypdf.

Installation

Python3

Extraire du texte d'un fichier PDF à l'aide de la bibliothèque PyMuPDF.

Installation

Python3

Python3

Python3

Python3

Conclusion