Python中可用于将PDF转换为文本的模块有哪些？

您可以使用PDFMiner包将PDF转换为文本。

示例

您可以通过以下方式使用它：

 import sys
from cStringIO import StringIO
 from pdfminer.pdfpage importPDFPage
from pdfminer.pdfinterp importPDFResourceManager, PDFPageInterpreter
from pdfminer.layout importLAParams
from pdfminer.converter importXMLConverter, HTMLConverter, TextConverter
 def pdfparser(data):
    fp = file(data, 'rb')
    resource_manager = PDFResourceManager()    retstr = StringIO()    codec = 'utf-8'
    laparams = LAParams()    device = TextConverter(resource_manager,retstr, codec=codec, laparams=laparams)
    interpreter =PDFPageInterpreter(resource_manager, device)
 
    # Process each page contained in thedocument.
    for page in PDFPage.get_pages(fp):
        interpreter.process_page(page)
        data = retstr.getvalue()
    print data
 pdfparser('filename.pdf')

这将获取一个pdf文件，并使用PDFPageInterpreter类中的process_page函数逐页提取文本。

PDFMiner的替代品具有更容易使用的API来提取文本。pyPDF可以正常工作（假设您使用的是格式正确的PDF）。如果只需要文本（带空格），则可以执行以下操作：

import pyPdf
pdf = pyPdf.PdfFileReader(open('filename.pdf',"rb"))
for page in pdf.pages:
    print page.extractText()

基础教程