对于许多行业来说,采集数据都是一个十分重要的工作,它能通过确切的数据来指导你的工作内容。这里给大家带来的八爪鱼采集器是一款采集网页数据的智能软件,它完全以自主研发的分布式云计算平台为核心,能够在短时间内轻松从不同网站和网页上抓取大量规范化的数据内容,帮助任何需要从网页获取信息的客户实现数据自动化采集,编辑,规范化,摆脱对人工搜索及收集数据的依赖,从而降低获取信息的成本,提高效率。
八爪鱼微信文章爬虫规则使用方法
微信文章采集下来有很多作用,比如可以将自己行业中最近一个月之内发布的内容采集下来,然后分析文章标题和内容的一个方向与趋势。
所以本次介绍八爪鱼简易采集模式下“搜狗公众号”的使用教程以及注意要点。
步骤一、下载八爪鱼软件并登陆
1、打开/download,即八爪鱼软件官方下载页面,点击图中的下载按钮。
2、软件下载好了之后,双击安装,安装完毕之后打开软件,输入八爪鱼用户名密码,然后点击登陆
步骤二、设置微信文章爬虫规则任务
1、进入登陆界面之后就可以看到主页上的网站简易采集了,选择立即使用即可。
2、进去之后便可以看到目前网页简易模式里面内置的所有主流网站了,需要采集微信公众号内容的,这里选择搜狗即可。
3、搜狗爬虫规则下内置了很多与搜狗搜索相关的采集规则,大家可以根据自己的需求找到搜狗公众号这条爬虫规则,点击即可使用。
4、搜狗公众号简易采集模式任务界面介绍
任务名:自定义任务名,默认为搜狗公众号
任务组:给任务划分一个保存任务的组,如果不设置会有一个默认组
公众号URL列表填写注意事项:提供要采集的网页网址,即搜狗微信中相关公众号的链接。多个公众号输入多个网址即可。
采集数目:输入希望采集的数据条数
示例数据:这个规则采集的所有字段信息。
更新日志
八爪鱼采集器 v8.5.1 官方最新版
修复部分简易模板启动后只采集1条数据问题
修复特定网站的循环打开网页问题
修复循环步骤操作导致无法保存问题
优化修复已知的bug、性能、体验问题
八爪鱼采集器 8.2.6 2021-01-06
迭代功能
更新自定义模式的布局,调整界面各部分尺寸,调整步骤高级选项的位置;
调整高级选项的层级关系,统一XPath的配置。
Bug修复
修复部分包含下拉框任务无法采集完整问题。
使用方法详解:
新建一个采集任务,如果要采集某一个网站的某一类数据,其实就是配置一个任务,当执行这个任务的时候就会按照设定采集相应的数据。
设置采集任务的基本信息,基本信息主要是一个任务分组,用来管理多个任务,方便使用,另外就是任务的名字,然后还有备注信息,方便记录任务的一些描述,这些信息在任务比较多的时候就很有用了。
最关键的一步,设定采集流程,这一步是最重要的一步,按照需要的采集顺序,把采集这个事情分成几个步骤,然后每个步骤对应一个采集动作,组合起来就形成了采集步骤,如果所示,就是采集一个页面的流程,先打开这个页面,然后提取这个页面上的数据。
配置执行计划,有些数据是要每天都采集一次的,有些则一天采集多次的,所以不同任务就设定不同的计划,这个任务是不需要定时执行的,所以就选择手动,然后保存执行计划
至此,基本配置就算完成了,接下来要做的就是测试一下流程是否正确,如果正确,就可以启动任务,采集数据了,如果不正确,再回头去修改各个步骤的配置有问题的地方,再继续测试,最终测试完成后即可采集。