Vous devez tous savoir ce que sont les PDF. En fait, ils constituent l’un des médias numériques les plus importants et les plus utilisés. PDF signifie Portable Document Format . Il utilise .pdf extension. Il permet de présenter et d'échanger des documents de manière fiable, indépendamment du logiciel, du matériel ou du système d'exploitation.
Nous extrairons le texte des fichiers pdf à l'aide de deux bibliothèques Python, pypdf et PyMuPDF , dans cet article.
Extraire du texte d'un fichier PDF à l'aide de la bibliothèque pypdf.
Paquet Python pypdf peut être utilisé pour réaliser ce que nous voulons (extraction de texte), même s'il peut faire plus que ce dont nous avons besoin. Ce package peut également être utilisé pour générer, décrypter et fusionner des fichiers PDF. Note: Pour plus d'informations, reportez-vous à Travailler avec des fichiers PDF en Python
Installation
Pour installer ce package, tapez la commande ci-dessous dans le terminal.
pip install pypdf>
Exemple: PDF d'entrée : 
Python3
mathématiques pow java
# importing required modules> from> pypdf>import> PdfReader> > # creating a pdf reader object> reader>=> PdfReader(>'example.pdf'>)> > # printing number of pages in pdf file> print>(>len>(reader.pages))> > # getting a specific page from the pdf file> page>=> reader.pages[>0>]> > # extracting text from page> text>=> page.extract_text()> print>(text)> |
>
>
Sortir:
Essayons de comprendre le code ci-dessus en morceaux :
reader = PdfReader('example.pdf')> - Nous avons créé un objet de Lecteur PDF classe de la pypdf module.
- Le Lecteur PDF la classe prend un argument de position requis du chemin d’accès au fichier pdf.
print(len(reader.pages))>
- pages la propriété donne une liste de Objets de page . Donc, ici, nous pouvons utiliser le seulement() fonction de python pour obtenir le nombre de pages dans le fichier pdf.
page = reader.pages[0]>
- Maintenant, comme lecteur.pages est une liste de Objets de page , nous pouvons obtenir un spécifique Page du pdf en appuyant sur l’index de la page. En python, l'indexation de la liste commence à 0, donc lecteur.pages[0] nous donne la première page du fichier pdf.
text = page.extract_text() print(text)>
- L'objet Page a une fonction extrait_text() pour extraire le texte de la page pdf.
Extraire du texte d'un fichier PDF à l'aide de la bibliothèque PyMuPDF.
PyMuPDF est une bibliothèque Python qui prend en charge les formats de fichiers tels que XPS, PDF, CBR et CBZ. Mais pour l’instant, dans cet article, nous allons nous concentrer sur les fichiers PDF (Portable Document Format).
Installation
pip install pymupdf pip install fitz>
Pour extraire le texte du pdf, nous devons suivre les étapes suivantes :
- Importer la bibliothèque
- Document d'ouverture
- Extraire du texte
Note: Nous utilisons ici le sample.pdf ; pour obtenir le pdf, utilisez le lien ci-dessous.
exemple.pdf – Lien
1. Importation de la bibliothèque
Python3
angles adjacents
import> fitz> |
>
>
2. Document d'ouverture
Python3
fichier ouvert en java
doc>=> fitz.>open>(>'sample.pdf'>)> |
>
>
Ici, nous avons créé un objet appelé doc , et le nom de fichier doit être une chaîne Python.
méthodes mathématiques en Java
3. Extraire du texte
Python3
for> page>in> doc:> >text>=> page.get_text()> >print>(text)> |
>
>
Ici, nous avons itéré des pages en pdf et utilisé le get_text() méthode pour extraire chaque page du fichier.
Tout le Code pour extraire le texte
Python3
import> fitz> doc>=> fitz.>open>(>'sample.pdf'>)> text>=> ''> for> page>in> doc:> >text>+>=>page.get_text()> print>(text)> |
oups concepts en java
>
>
Sortir:

Conclusion
Nous avons vu deux bibliothèques Python, pypdf et PyMuPDF , qui peut extraire le texte d'un fichier PDF. Commentez votre bibliothèque préférée parmi les deux bibliothèques ci-dessus.