蜂巢数据是一款免费的网页采集分析软件,你只需要编写简单的JavaScript脚本,就能实现对任何网页的数据采集。蜂巢数据软件也可以用来实现自动浏览网页等功能。
采集入门
点击工具栏上的"新建任务",将会弹出新建任务对话框。
输入任务名称"第一个任务",然后点击保存,您已成功创建了第一个数据采集任务。
下图是任务编辑器界面:
首先,我们先定义好数据表。点击任务编辑器下面的"数据字段"标签。
我们添加两个字段,"标题"和"内容",如下图所示:
接下来我们需要编写一小段JavaScript代码来执行任务,编写采集任务只需要会简单的JavaScript语法。
提示:如果您没学过JavaScript,网上有很多JavaScript入门教程,百度下"JavaScript语法基础"。
把下面的JavaScript代码复制到脚本编辑器,然后点击运行,稍等片刻,您会在数据字段面板里看到采集的数据.
/* 加载需要采集的页面 */
load("http://www.hdata.me/h1.html");
/* 提取我们所需的数据 */
t = inner_text("obj1");
c = inner_text("/html/body[1]/div[1]");
/* 把数据保存到数据库 */
save([t, c]);
到目前为止,我们都在调试模式运行脚本,调试模式下数据不会真正保存到数据库。
点击工具栏上的"保存",选中"第一个任务",然后点击"开始任务",此时任务运行在工作模式。
等任务运行结束,点击"查看数据",我们会在新窗口中看到该任务采集到的数据。
更新日志:
v1.2
1. 增加数据导出功能
2. 增加计划任务(定时采集)功能
3. 增加任务导入,导出功能