PDFlux智能识别PDF(各类金融文档,包括年报、审计报告、IPO招股说明书、债券募集说明书、评级报告等)中的表格,包括有线框和无线框等各类表格,一键拷贝到Word、Excel、PPT中。有需要的小伙伴欢迎来西西下载体验。
关于公司:
北京庖丁科技有限公司(“庖丁科技”)是全球领先的专注于金融语义理解的人工智能公司,致力于将国际最前沿的深度学习(Deep Learning)、自然语言处理(Natural Language Processing)、富格式文档(Richly Formatted Documents)解析等技术与金融各垂直领域专业知识进行深度融合,帮助传统金融行业打造新一代核心竞争力。
庖丁科技团队逾100人,公司联合创始人在机器学习、自然语言处理、数据挖掘、金融监管、投资银行及跨境投资领域拥有超过十年的行业经验,团队核心骨干来自于中科院、清华、腾讯、惠普实验室、阿里、华为、加拿大鲍尔集团、中信证券、香港联交所、安永等国内外大型高科技和金融企业。公司成立两年时间,已申请多项国内外人工智能及金融科技领域领先的专利技术,得到了包括中港两地金融监管机构在内的金融行业战略客户的信赖与认可。
软件功能:
表格识别
精准识别无线框表格
精准识别复杂排版页面的表格
精准识别表格内部单元格合并
跨页表格自动合并
支持扫描件的表格识别:去除印章、角度矫正
格式转换
将PDF转化为Word、Excel、HTML等格式
将PDF转化为EPUB、MOBI等电子书格式,可以在手机或Kindle等电纸书上阅读
精准保留文本段落、表格等内容块信息
精准识别文档的章节目录结构
支持复杂排版的PDF文档的转换
SaaS服务
提供一套完整易用的REST API,供计算机调用,让您把PDF复杂格式抛诸脑后
将PDF文档解析为文本段落、表格、图片等内容块的序列,保留原文档的阅读顺序
支持中英文多栏复杂排版的PDF文档解析,跨栏和跨页内容块智能自动合并
智能识别表格的内部结构:单元格合并,单元格文字的对齐方式、缩进、颜色、加粗、斜体等样式信息,跨页和跨栏表格智能合并单元格文字
智能识别文档的目录结构,支持多达10个层级,长文档信息抽取必不可少
支撑后续各类文档智能的应用:PDF文档全文检索、文档级别信息抽取等
更新日志:
Version 3.12.10
2020-06-23
优化元素块和Toolbar加载方式,减少内存占用,使客户端更流畅
优化文档内容收藏功能,使功能更完善美观
修复多个已知崩溃问题