织梦采集侠是一款基于织梦DEDECMS的专业站群系统/站群软件,可以根据关键词、RSS和页面监控等方式定时定量采集,进行伪原创SEO优化后更新发布,无需编写采集规则!有需要的小伙伴欢迎来西西下载体验。
软件特色:
一键安装
只需一分钟,立即开始采集,而且结合简单、健壮、灵活、开源的dedecms程序
一词采集
根据用户设定的关键词进行泛采集,实现不对指定的一个或几个被采集站点进行采集
R SS采集
只需要输入RS S地址即可方便的 采集到目标网站内容,无需编写采集规则,方便简单
定向采集
提供列表URL和文章URL即采集指定网站或栏目内容,便可精确采集标题、正文、作者、来源
无人工干预
可预先设定是采集任务,然后全自动完成进行伪原创,导入,生成,操作无需人工干预
伪原创SEO更新
我们为商业用户提供的远程触发采集服务,新站无有人访问即可定时定量采集更新
更新审核文稿
采集侠亦可根据您的需要每天在您设置的时间段内定时定量审核更新
自动生成推送
自动生成sitemap,自动推送百度接口,确保百度及时收录到您的网站,提供网站排名
更新日志:
采集侠2.9.1版更新说明:
优化:采集任务的栏目列表保持和系统一致拥有层级关系
优化:循环采集后自动进入监控采集第一页,较少不必要的采集监测
优化:可对单个采集规则记录进行重置,无须全部清除历史记录
优化:sitemap.xml格式兼容sogou规范
优化:sitemap.xml生成速度,增加sitemap文章数量
优化:a链接过滤保留ftp、迅雷、磁力链接便于采集电影信息
优化:弹出设置层优化体验
优化:兼容https站点后台
增加:增加微信采集功能,暂只提供给授权用户
增加:精彩的发现频道,众多内容等你发现
修复:绑定节点采集不能记录已采地址伪原创后导致重复问题
修复:与第三方手机版模块的兼容问题
修复:关键词内链设置错误导致的无法采集的问题
修复:提取的缩略图不是第一张的问题
常见问题答疑:
采集HTTPS网站问题
采集侠调用了织梦的接口,因织梦一直未更新支持采集https的网址,所以采集侠尚无法直接更新,现提供临时补丁包,下载并按自己程序的编码覆盖就可以了
一直提示采集到网址数0,采集不到文章怎么办?
这一情况分为关键词采集和定向采集
关键词采集出现这一提示,说明关键词都采集完了,采集不到新内容了,如果您在高级设置内没有设置任何过滤的话,又没采集到多少篇文章就出现这一提示,说明您的选词不够理想,有关关键词采集的问题请看:http://www.caijixia.net/help/faq/85030.html
如果是定向出现这一提示,您又确定没有采集,那多半是规则没有写好,这里有几个注意点:
一、内容规则设置成自动并不能保证所有网站都能自动识别,采集不到的应该自己设置内容规则
二、修改了规则后还是一直这个提示,需要先清除采集记录(2.7版本以前在右上角),因为之前采集规则错误的时候采集侠已经尝试采集了所有的网址,现在你修改了规则,但是之前采集过的网址采集侠是不会重复采集的,所以只有清除采集记录之后再采集才会使用新规则重新尝试采集。
采集侠不自动采集,是不是采集侠出问题了?
采集侠程序本身是运行在您服务器上的,只要没有自行修改我们的程序,程序就不会出问题的。
但是采集侠有个服务是由我们的服务器帮助运行的,也就是触发服务,解释一下:PHP本身是一种脚本程序,他只有在有用户访问的时候才会执行,比如您的网站上传到服务器空间后,如果一个用户访问都没有,那么你的网站就是放在那里并不会自行运行,当有用户访问的时候,网站就会进行计算并生成网页显示给用户,每一个用户访问一次网站就运行一次,采集侠也是一样的,并不会自动运行,只有告诉他你要运行了,他就会运行一次,所以要实现自动采集,就需要不断的访问他,为此采集侠官方对授权用户提供一项服务,即触发服务,当然技术实现比这说的复杂很多,但是该服务我们承诺是99.9%在线的,所以请您相信,采集侠没有问题!
那为什么不自动采集呢?这还得看具体分析,主要有几种情况:一、定向采集的对方网站没有更新,采集侠都采集过了。二、 用户自己设置了允许采集的时间,当前不在采集时间内。三、用户设置了每个小时采集的数量, 当前已经采集够了。四、定向规则有错误,这也是最常见的,可能是对方网站模板修改了,也有可能是当时写的时候就没写对。
关键词采集的文章很乱怎么办?
首先我们也意识到该问题并在时刻关注和努力优化中,但是对于关键词采集,可能大多数人存在一定的误解,这里说明一下:
我们先了解一下关键词采集的原理,用户在采集侠采集任务内设置想采集的关键词后,采集侠通过搜素引擎(baidu、360、sogou等)搜索与关键词有关的页面并进行采集,这一采集行为与平时用户的搜索行为是很类似的。
那为什么采集的内容有的会乱呢?
这是行业共同面对的一个技术性难题,包括搜索引擎也一直在做这方面的研究,采集侠这几年来也一直在不断地提高自己。
这就是页面分析技术,采集侠关键词采集的原理是通过搜索引擎找到的相关页面,这些页面属于不同的各行各业的网站,因为这些网站不是固定的所以我们也就不能提前的写好固定的规则去提取出文章的标题和文章的内容,甚至搜索到的这些页面还有很多并不是文章页面,而是一些网站的首页或者栏目(也就是你可能看到的采集侠提示跳过或者抛弃),要从这样的一些页面中提取出真正格式规范的文章内容是很难的,但采集侠并不放弃而是不断提高自己去不断的更准确的提取内容。
那这样采集出来的文章会有用吗?
答案是肯定的,有用!
刚我们也说了,关键词采集这一采集行为与平时用户的搜索习惯是类似的,所以我们将用户搜索的文章进行汇集起来放到我们的网站上,那么我们的网站内容是不是正是用户希望看到的内容呢?是不是正好认证了我们开篇说的这样的网站才是有价值的呢?而从搜索引擎的技术角度看待这一问题也是同样的,如果你完全复制同一个网站的文章,这目前的搜素引擎技术是容易识别出来采集自哪个站的,不要存在侥幸心理,搜索引擎是一定存在偏见的,搜索引擎喜欢原创鼓励原创,完全复制为何不直接给原站流量和权重呢,凭什么把流量给一个采集的站?但是关键词采集是把不同的网站与关键词相关的文章汇集起来,这就是经过整理的有用的了,这样的网站还是值得搜素引擎给予一定的权重的。
有没有办法提高采集质量呢?
采集侠在关键词采集上做不到完美,但是站长可以通过设置尽可能的提高采集质量,不同的关键词采集的效果可能完全不一样,其次采集侠的高级设置里的采集引擎接口和文章最小字节数的合理设置,也会影响关键词采集。
采集引擎接口的意思就是采集侠通过哪个搜索引擎去搜索您给出的关键词去采集,如果您的关键词是新闻类的或者您想采集新闻类的文章,那么选择新闻类的接口采集的文章格式是会好一些的。
文章最小字节数这个又怎么理解呢,这就是采集侠采集文章的条件了,采集侠找到了一个页面,在这个页面里发现了一段文字,那要不要采集呢就是这个设置决定了,我们默认是200,也就是说发现有200字以上的文字的文章采集侠就采集了,如果文字少于200字那么这个页面就不采集,如果你修改了这个数字为1000,那么就只有发现1000字的文章才采集,这样采集的结果就是文章看起来更好看了。但是设置大了有什么弊端 吗?你应该想出来了设置大了可能很多字数少的文章都采集不到了,有的用户把这个数字设置得很大然后来找我们说采集不到,就是这个原因。如果设置小了会怎么样,那可能就是有极短的文字都当成文章采集了。
如何设置关键词提高采集质量?
刚接触采集侠的很多用户都喜欢设置这样的关键词 “新闻”、“国内新闻”,然后发现并不能采集到好的文章,为什么呢?这样的词搜索引擎怎么可能搜不到?是的,这样的词 搜索引擎确实可以搜到很多东西,但是搜到的点进去就是文章吗,搜到很多都是新闻网站的首页或者栏目吧,不信去试试。
搜索到网站首页或者栏目的地址时采集侠并不能采集的也不应该采集,但当大量的首页和栏目的时候可能会误导采集侠给你采集回一些本不是文章的东西回来了!那怎么办,优化我们的关键词,想采集新闻怎么办,直接把关键词设置成最近的新闻动态事件,去哪里知道最近的事件?利用其它网站的一些工具,比如百度风云榜http://top.baidu.com/,试试这样的词搜索出来的结果是不是都是文章呢。再此我们推荐两个工具:爱站的关键词挖掘http://ci.aizhan.com/ 词库网http://www.ciku5.com/