杰灵采集器是一款免费的网页数据采集器,免费网站采集器与文章采集软件,免费实用,支持单页抓取,多线程抓取、批量采集等功能!有需要的小伙伴欢迎来西西下载体验。
软件特色:
免费实用
全部功能免费开放,免费提供开源发布接口
支持单页抓取
支持指定URL网址 抓取内容
多线程抓取
多任务多线程快速抓取
批量采集
列表采集、内容采集、内容发布分步或合并批量采集
SQLite数据库
广泛使用的SQLite数据库存贮,轻型高效
图片附件下载保存
采集同时保存远程图片本地化
附件上传
支持图片附件自动上传至网站
通用网站接口
discuz,wordpress,dedecms,帝国cms等开源程序
自动缩略图
内容页提取首页图片为缩略图
图片水印
自定义logo或文字水印
正则表达式
支持正则提取或过滤内容
多级页面采集
支持无限级多级页面抓取
基础术语:
1:发布规则
模拟网站后台手工添加数据 所需要提交的POST参数规则集合,是存贮在本地的。
主要包括自已网站的接口网址,网站编码,接口所需要的表单。如下图所示
2:发布接口
发布接口是:发布接口是放在网站目录下的php,asp等动态执行脚本文件(存贮在服务器上网站目录下的)
以帝国CMS为例:接口文件名称jieling.php放置/e/admin/目录下即可
3:采集任务
在左侧任务栏,添加任务,每个任务主要包含[采集内容设置]、[发布内容设置]。
更新日志:
20190708
1、新增支持php插件,支持回调修改其他字段(详见-->点击)
2、新增支持javascript插件,支持回调修改其他字段(详见-->点击 )
3、新增数据库报表支持多选
4、新增过滤筛选支持文本导入,全局关键词过滤
5、新增列表区域提取 支持正则提取 如[\s\S]+提取全文
6、新增字段设置 内置大量常用规则,点击图标,快速选用即可
7、新增采集的时候可指定ssl版本号(设置1.1或1.2或留空)
8、新增EXCEL导入支持指定EXCEL起始行
9、新增数据查看器,sql语句历史纪录功能
10、新增网址包含 可用|(或)筛选网址
11、新增单篇发布,如404,500错误 ,将显示错误文本
12、修复WIN2012以上版本远程桌面特殊情况导致无法保存任务的BUG
13、修复内容页分页内存溢出bug
14、修复列表采集超长时间延时无法快速停止的bug
15、修复//开头的无协议链接,自动转化为对应协议http(s)://