likes
comments
collection
share

pdf表格数据提取批量提取PDF表格中的文字内容,导出到CSV文件中。 开发语言:python, 工具库:pdfplum

作者站长头像
站长
· 阅读数 19

前言

目标:PDF文档表格中的内容基本相同,需要批量提取PDF表格中的文字内容,导出到CSV文件中。 开发语言:python

经过大致尝试,以下几种PDF文字提取工具提取效果:

  • PyMuPDF:不擅长解析 PDF 中的复杂结构
  • PyPDF2:不擅长解析 PDF 中的复杂结构
  • pdfminer:写法稍显复杂,对表格文字提取后以换行分隔(即每个单项为一行,这会影响单行的分析)
  • tabula:能提取表格,但似乎生成了很重复的数据。在指定区域的情况,提取的内容相对准确( area=[50, 70, 100,100])。提取结果类似如下:

11,400~2000,0.3,0.8,,名称,,,编号,,,,,,,,,,,,,,

- pdfplumber:提取结果为矩阵(二维数组),即tables->table->row->cell,较为理想

最终采用:pdfplumber

外部依赖

  • pdfplumber
  • configparser

标准库依赖

  • tkinter GUI窗口
  • threading 多线程

关键代码

递归读取文件夹中的所有PDF文件

def read_dir2(parser: PdfParser, path: str):
    '''os.walk() 递归遍历文件夹'''
    global START
    if os.path.isdir(path):
        for root, dirs, files in os.walk(path):
            for f in files:
                if START == False:
                    return
                if f.lower().endswith('.pdf'):
                    sub_path = os.path.join(root, f)
                    parse_file(parser, sub_path)
    elif path.lower().endswith('.pdf'):
        parse_file(parser, path)
    START = False
    msgbox.showinfo('提示', '解析完成')

提取PDF所有文字

    def readpdf(self, pdf_path):
        with pdfplumber.open(pdf_path) as pdf:
            first_page = pdf.pages[0]
            tables = first_page.extract_tables()
            return tables

根据设定标题提取对应的文字内容

注意:尽量将所有表格内的标题设置完,以免误将标题当成提取的文字内容。

def extract_text(self, tables = []):
        row_data = dict()
        for table in tables:
            for row in table:
                for cell in row:
                    if cell is None:
                        continue
                    key = cell.strip().replace(' ', '')
                    if key in self.titles:
                        if not row_data.get(key):
                            # 可能为:重 量, None, 7.89KG
                            if row.index(cell) +1 < len(row):
                                value = row[row.index(cell) + 1]
                            # 若为空,再尝试取第三个单元格(当然这里可尝试更多后续值,只要不是标题)
                            if value is None and row.index(cell) + 2 < len(row):
                                value = row[row.index(cell) + 2]
                            # 若不为空,则排除key值的情况
                            if value is not None :
                                value = value.replace(' ', '')
                                if value in self.titles:
                                    continue
                                else:
                                    row_data[key] = value.strip()
                            # print(row_data)   
        # print(row_data)
        return row_data

exe打包

采用pyinstaller.

pip install pyinstaller
pyinstaller -i favicon.ico -F -w win.py

附:源代码

gitlab.com/opensource1… pdf表格数据提取批量提取PDF表格中的文字内容,导出到CSV文件中。 开发语言:python, 工具库:pdfplum

转载自:https://juejin.cn/post/7419688489410035722
评论
请登录