西西软件园多重安全检测下载网站、值得信赖的软件下载站!
西西首页 电脑软件 安卓软件 电脑游戏 安卓游戏 排行榜 专题合集

pdf提取表格内容源码

Python版
  • pdf提取表格内容源码Python版
  • 软件大小:1KB
  • 更新时间:2021-06-10 09:37
  • 软件语言:中文
  • 软件厂商:
  • 软件类别:国产软件 / 免费软件 / 源码相关
  • 软件等级:3级
  • 应用平台:WinXP, Win7, win8
  • 官方网站:暂无
  • 应用备案:
好评:50%
坏评:50%

本类精品

软件介绍

pdf提取表格内容源码,一个pdf提取表格内容的源码,由Python语言编写,参考文档为教育部阅读指导目录,用户可以通过源码原理来制作能提取任意表格内容的源码,下面给出这款pdf提取表格内容的源码资源,有需要的朋友们可以参考学习。

源码程序由论坛用户制作分享。

pdf提取表格内容源码

pdf提取表格内容源码功能

一个从pdf文档中提取出表格数据,并另存为excel文件的python程序

pdf提取表格内容源码说明

教育部基础教育课程教材发展中心首次向全国中小学生发布阅读指导目录

http://www.moe.gov.cn/jyb_xwfb/gzdt_gzdt/s5987/202004/t20200422_445605.html

最下面的附件

pdf中按小学、初中、高中推荐了三套生阅读指导目录。

我们根据页码,来分别存为3个EXCEL文件。

源码一览

# -*- coding: utf-8 -*-

import pdfplumber

import pandas as pd

pdf = pdfplumber.open("2020.pdf")

full_df = pd.DataFrame()

for i in range(1, 6):

    second_page = pdf.pages[i]

    table = second_page.extract_table()

    print(table)

    table_df = pd.DataFrame(table[1:], columns=table[0])

    print(table_df)

    full_df = pd.concat([full_df, table_df])

full_df.to_excel('小学段.xlsx')

full_df = pd.DataFrame()

for i in range(6, 11):

    second_page = pdf.pages[i]

    table = second_page.extract_table()

    print(table)

    table_df = pd.DataFrame(table[1:], columns=table[0])

    print(table_df)

    full_df = pd.concat([full_df, table_df])

full_df.to_excel('初中段.xlsx')

full_df = pd.DataFrame()

for i in range(11, 15):

    second_page = pdf.pages[i]

    table = second_page.extract_table()

    print(table)

    table_df = pd.DataFrame(table[1:], columns=table[0])

    print(table_df)

    full_df = pd.concat([full_df, table_df])

full_df.to_excel('高中段.xlsx')

软件标签: pdf 表格 源码

软件截图

pdf提取表格内容源码 Python版

其他版本下载

发表评论

昵称:
表情: 高兴 可 汗 我不要 害羞 好 下下下 送花 屎 亲亲
TOP
软件下载