Jums visiem ir jāzina, kas ir PDF faili. Patiesībā tie ir viens no svarīgākajiem un visplašāk izmantotajiem digitālajiem medijiem. PDF apzīmē Portatīvā dokumenta formāts . Tā izmanto .pdf pagarinājumu. To izmanto, lai droši iesniegtu un apmainītos ar dokumentiem neatkarīgi no programmatūras, aparatūras vai operētājsistēmas.
Mēs izvilksim tekstu no pdf failiem, izmantojot divas Python bibliotēkas, pypdf un PyMuPDF , šajā rakstā.
Teksta izvilkšana no PDF faila, izmantojot pypdf bibliotēku.
Python pakotne pypdf var izmantot, lai sasniegtu to, ko mēs vēlamies (teksta izvilkšana), lai gan tas var darīt vairāk, nekā mums ir nepieciešams. Šo pakotni var izmantot arī PDF failu ģenerēšanai, atšifrēšanai un sapludināšanai. Piezīme: Lai iegūtu papildinformāciju, skatiet Darbs ar PDF failiem programmā Python
Uzstādīšana
Lai instalētu šo pakotni, terminālā ierakstiet tālāk norādīto komandu.
pip install pypdf>
Piemērs: Ievadiet PDF: 
Python3
bash ja nosacījums
# importing required modules> from> pypdf>import> PdfReader> > # creating a pdf reader object> reader>=> PdfReader(>'example.pdf'>)> > # printing number of pages in pdf file> print>(>len>(reader.pages))> > # getting a specific page from the pdf file> page>=> reader.pages[>0>]> > # extracting text from page> text>=> page.extract_text()> print>(text)> |
>
>
Izvade:
Mēģināsim saprast iepriekš minēto kodu pa daļām:
reader = PdfReader('example.pdf')> - Mēs izveidojām objektu no PdfReader klase no pypdf modulis.
- The PdfReader klase izmanto nepieciešamo pozicionālo argumentu ceļam uz pdf failu.
print(len(reader.pages))>
- lapas īpašums sniedz sarakstu ar Lapas objekti . Tātad, šeit mēs varam izmantot iebūvēto tikai() python funkcija, lai iegūtu pdf faila lappušu skaitu.
page = reader.pages[0]>
- Tagad, kā lasītājs.lapas ir saraksts ar Lapas objekti , mēs varam iegūt konkrētu Lappuse pdf, pieskaroties lapas rādītājam. Python sarakstā indeksēšana sākas no 0, tāpēc lasītājs.lapas[0] dod mums pdf faila pirmo lapu.
text = page.extract_text() print(text)>
- Lapas objektam ir funkcija ekstrakts_teksts() lai izvilktu tekstu no pdf lapas.
Teksta izvilkšana no PDF faila, izmantojot PyMuPDF bibliotēku.
PyMuPDF ir Python bibliotēka, kas atbalsta tādus failu formātus kā XPS, PDF, CBR un CBZ. Bet pagaidām šajā rakstā mēs koncentrēsimies uz PDF (Portable Document Format) failiem.
Uzstādīšana
pip install pymupdf pip install fitz>
Lai izvilktu tekstu no pdf, mums ir jāveic šādas darbības:
- Bibliotēkas importēšana
- Dokumenta atvēršana
- Teksta izvilkšana
Piezīme: Mēs izmantojam paraugu.pdf šeit; lai iegūtu pdf, izmantojiet zemāk esošo saiti.
paraugs.pdf — Saite
1. Bibliotēkas importēšana
Python3
lejupielādēt youtube video ar vlc
import> fitz> |
>
>
2. Dokumenta atvēršana
Python3
java virkne char
doc>=> fitz.>open>(>'sample.pdf'>)> |
>
fibonači kods java
>
Šeit mēs izveidojām objektu ar nosaukumu doc , un faila nosaukumam ir jābūt Python virknei.
3. Teksta izvilkšana
Python3
for> page>in> doc:> >text>=> page.get_text()> >print>(text)> |
>
>
Šeit mēs atkārtojām lapas pdf formātā un izmantojām get_text() metode katras lapas izvilkšanai no faila.
Viss kods teksta izvilkšanai
Python3
Linux resursdators
import> fitz> doc>=> fitz.>open>(>'sample.pdf'>)> text>=> ''> for> page>in> doc:> >text>+>=>page.get_text()> print>(text)> |
>
>
Izvade:

Secinājums
Mēs esam redzējuši divas Python bibliotēkas, pypdf un PyMuPDF , kas var izvilkt tekstu no PDF faila. Komentējiet savu vēlamo bibliotēku no divām iepriekš minētajām bibliotēkām.