Extract text using PdfMiner and PyPDF2 Merge columns

Question

Extract text using PdfMiner and PyPDF2 Merge columns

I am trying to parse text in a pdf file using pdfMiner, but the extracted text is merged. I use the pdf file at the following link.

Pdf file

I am well versed with any type of output (file / line). Here is the code that returns the extracted text as a string for me, but for some reason the columns are concatenated.

from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfinterp import PDFResourceManager, process_pdf
import StringIO

def convert_pdf(filename):
    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    codec = 'utf-8'
    laparams = LAParams()
    device = TextConverter(rsrcmgr, retstr, codec=codec)

    fp = file(filename, 'rb')
    process_pdf(rsrcmgr, device, fp)
    fp.close()
    device.close()

    str = retstr.getvalue()
    retstr.close()
    return str

I also tried PyPdf2, but ran into the same problem. Here is a sample code for PyPDF2

from PyPDF2.pdf import PdfFileReader
import StringIO
import time

def getDataUsingPyPdf2(filename):
    pdf = PdfFileReader(open(filename, "rb"))
    content = ""

    for i in range(0, pdf.getNumPages()):
        print str(i)
        extractedText = pdf.getPage(i).extractText()
        content +=  extractedText + "\n"

    content = " ".join(content.replace("\xa0", " ").strip().split())
    return content.encode("ascii", "ignore")

I also tried pdf2txt.py but could not get the formatted output.

+5

python pypdf pdftotext

user2151334 Apr 1 '13 at 4:54

source share

2 answers

hlindblo · Answer 1 · 2013-10-04T10:33:02+0000

I recently encountered a similar problem, although my pdf file had a slightly simpler structure.

PDFMiner "" pdf. PDFPageAggregator, . , . TextConverter, XMLConverter HTMLConverter ( , ), .

TextConverter ( PDFPageAggregator) , . , . pdf () , , (, , ) . , , ,

, PDFPageAggregator,
XMLConverter XML-, , , Beautifulsoup

, y- .

(, , ) receive_layout, . . , - :

from pdfminer.pdfdocument import PDFDocument, PDFNoOutlines
from pdfminer.pdfparser import PDFParser
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LTPage, LTChar, LTAnno, LAParams, LTTextBox, LTTextLine

class PDFPageDetailedAggregator(PDFPageAggregator):
    def __init__(self, rsrcmgr, pageno=1, laparams=None):
        PDFPageAggregator.__init__(self, rsrcmgr, pageno=pageno, laparams=laparams)
        self.rows = []
        self.page_number = 0
    def receive_layout(self, ltpage):        
        def render(item, page_number):
            if isinstance(item, LTPage) or isinstance(item, LTTextBox):
                for child in item:
                    render(child, page_number)
            elif isinstance(item, LTTextLine):
                child_str = ''
                for child in item:
                    if isinstance(child, (LTChar, LTAnno)):
                        child_str += child.get_text()
                child_str = ' '.join(child_str.split()).strip()
                if child_str:
                    row = (page_number, item.bbox[0], item.bbox[1], item.bbox[2], item.bbox[3], child_str) # bbox == (x1, y1, x2, y2)
                    self.rows.append(row)
                for child in item:
                    render(child, page_number)
            return
        render(ltpage, self.page_number)
        self.page_number += 1
        self.rows = sorted(self.rows, key = lambda x: (x[0], -x[2]))
        self.result = ltpage

LTTextLine , , , . - :

from pprint import pprint
from pdfminer.pdfparser import PDFParser
from pdfminer.pdfdocument import PDFDocument
from pdfminer.pdfpage import PDFPage
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.layout import LAParams

fp = open('pdf_doc.pdf', 'rb')
parser = PDFParser(fp)
doc = PDFDocument(parser)
doc.initialize('password') # leave empty for no password

rsrcmgr = PDFResourceManager()
laparams = LAParams()
device = PDFPageDetailedAggregator(rsrcmgr, laparams=laparams)
interpreter = PDFPageInterpreter(rsrcmgr, device)

for page in PDFPage.create_pages(doc):
    interpreter.process_page(page)
    # receive the LTPage object for this page
    device.get_result()

pprint(device.rows)

device.rows , y-. y- , ..

pdf-, , . , PDFMiner . , , ( -W pdf2text.py). ( ) API PDFMiner, PDFMiner, github. (, , : "<, , Google )

Stedy · Answer 2 · 2013-04-01T06:09:28+0000

, :

14945010314370 372WILLOWRD W 14945010314380 TO 384WILLOWRD W DWELLING AGARDEN 149450103141000 1020WILLOWBROOKRD 198787

, , , , . , PDF, , , PDF.

Extract text using PdfMiner and PyPDF2 Merge columns

More articles: