logo

Izņemiet tekstu no PDF faila, izmantojot Python

Jums visiem ir jāzina, kas ir PDF faili. Patiesībā tie ir viens no svarīgākajiem un visplašāk izmantotajiem digitālajiem medijiem. PDF apzīmē Portatīvā dokumenta formāts . Tā izmanto .pdf pagarinājumu. To izmanto, lai droši iesniegtu un apmainītos ar dokumentiem neatkarīgi no programmatūras, aparatūras vai operētājsistēmas.

Mēs izvilksim tekstu no pdf failiem, izmantojot divas Python bibliotēkas, pypdf un PyMuPDF , šajā rakstā.

Teksta izvilkšana no PDF faila, izmantojot pypdf bibliotēku.

Python pakotne pypdf var izmantot, lai sasniegtu to, ko mēs vēlamies (teksta izvilkšana), lai gan tas var darīt vairāk, nekā mums ir nepieciešams. Šo pakotni var izmantot arī PDF failu ģenerēšanai, atšifrēšanai un sapludināšanai. Piezīme: Lai iegūtu papildinformāciju, skatiet Darbs ar PDF failiem programmā Python



Uzstādīšana

Lai instalētu šo pakotni, terminālā ierakstiet tālāk norādīto komandu.

pip install pypdf>

Piemērs: Ievadiet PDF: ekstrakts-pdf-text-python

Python3




bash ja nosacījums

# importing required modules> from> pypdf>import> PdfReader> > # creating a pdf reader object> reader>=> PdfReader(>'example.pdf'>)> > # printing number of pages in pdf file> print>(>len>(reader.pages))> > # getting a specific page from the pdf file> page>=> reader.pages[>0>]> > # extracting text from page> text>=> page.extract_text()> print>(text)>

>

>

Izvade:

ekstrakts-pdf-python

Mēģināsim saprast iepriekš minēto kodu pa daļām:

reader = PdfReader('example.pdf')>
  • Mēs izveidojām objektu no PdfReader klase no pypdf modulis.
  • The PdfReader klase izmanto nepieciešamo pozicionālo argumentu ceļam uz pdf failu.
print(len(reader.pages))>
  • lapas īpašums sniedz sarakstu ar Lapas objekti . Tātad, šeit mēs varam izmantot iebūvēto tikai() python funkcija, lai iegūtu pdf faila lappušu skaitu.
page = reader.pages[0]>
  • Tagad, kā lasītājs.lapas ir saraksts ar Lapas objekti , mēs varam iegūt konkrētu Lappuse pdf, pieskaroties lapas rādītājam. Python sarakstā indeksēšana sākas no 0, tāpēc lasītājs.lapas[0] dod mums pdf faila pirmo lapu.
text = page.extract_text() print(text)>
  • Lapas objektam ir funkcija ekstrakts_teksts() lai izvilktu tekstu no pdf lapas.

Teksta izvilkšana no PDF faila, izmantojot PyMuPDF bibliotēku.

PyMuPDF ir Python bibliotēka, kas atbalsta tādus failu formātus kā XPS, PDF, CBR un CBZ. Bet pagaidām šajā rakstā mēs koncentrēsimies uz PDF (Portable Document Format) failiem.

Uzstādīšana

pip install pymupdf pip install fitz>

Lai izvilktu tekstu no pdf, mums ir jāveic šādas darbības:

  1. Bibliotēkas importēšana
  2. Dokumenta atvēršana
  3. Teksta izvilkšana

Piezīme: Mēs izmantojam paraugu.pdf šeit; lai iegūtu pdf, izmantojiet zemāk esošo saiti.

paraugs.pdf — Saite

1. Bibliotēkas importēšana

Python3

lejupielādēt youtube video ar vlc




import> fitz>

>

>

2. Dokumenta atvēršana

Python3


java virkne char



doc>=> fitz.>open>(>'sample.pdf'>)>

>

fibonači kods java
>

Šeit mēs izveidojām objektu ar nosaukumu doc , un faila nosaukumam ir jābūt Python virknei.

3. Teksta izvilkšana

Python3




for> page>in> doc:> >text>=> page.get_text()> >print>(text)>

>

>

Šeit mēs atkārtojām lapas pdf formātā un izmantojām get_text() metode katras lapas izvilkšanai no faila.

Viss kods teksta izvilkšanai

Python3


Linux resursdators



import> fitz> doc>=> fitz.>open>(>'sample.pdf'>)> text>=> ''> for> page>in> doc:> >text>+>=>page.get_text()> print>(text)>

>

>

Izvade:

Secinājums

Mēs esam redzējuši divas Python bibliotēkas, pypdf un PyMuPDF , kas var izvilkt tekstu no PDF faila. Komentējiet savu vēlamo bibliotēku no divām iepriekš minētajām bibliotēkām.