Screaming Frog SEO Spider(网络爬虫)是一款网站爬虫工具,它会通过你提供的网站主域爬取你的网站,并获取你网站里所有的网页以及关键元素,并实时提供分析结果。它的功能非常强大,对于日常的SEO工作来说,它不仅能提升工作效率,还能清楚的了解到网站的结构及页面结构。
软件功能
1、获取网站内所有的链接及导出链接
网站内所有的链接包括html、css、JavaScript、图片等,导出链接可以获取网站内容所有导出的链接,方便大家清理不想导出的链接。
2、列出所有链接的信息
尖叫青蛙强大的地方就在于它不仅获取了网站内所有的链接,我们通过链接的就能获取到该链接的所有信息,大致包括该链接包含链接数、状态码、是否被robots屏蔽、该网页标题、标题长度、描述、关键词、发布时间等等所有的信息,分析的信息详细到只有你想不到的,没有你找不到的。
3、快速找出网站中的死链(404链接)
上面说到可以查看每个链接的状态码,通过状态码,我们就能快速找到网站中存在的死链。相信很多小伙伴都会头疼蜘蛛每天在抓死链却找不出死链出现在哪个位置,而这款工具除了能找出网页中所有的死链外,它更厉害的是你可以点击一个死链,在inlink标签里就能显示在哪些页面含有这个死链。是不是很方便?
4、生成xml地图
这款工具可以快速创建XML站点地图和图像XML站点地图,通过URL进行高级配置,包括上次修改,优先级和更改频率。
5、有助审查robots和其他指令
通过尖叫青蛙工具里的indexability栏,你可以清楚的看到每一个链接是否被robots屏蔽、是否被nofollow。
6、分析站点架构
通过使用交互式爬网和目录强制导向图和树形图,可以有助你们分析可视化的评估内部链接和URL结构。
7、其他一些功能
除了以上功能外,尖叫青蛙还有其他一些功能,比如查看链接是否被重定向、网页大小、链接细节信息、搜索结果展示页效果图、列举网页内的h标签、rel=“next”和rel=“prev”(文章页上下篇链接)、检查重复的URL等等。
除了以上功能外,尖叫青蛙还有其他一些功能,比如查看链接是否被重定向、nofollow、网页大小、链接细节信息、搜索结果展示页效果图、列举网页内的h标签、rel=“next”和rel=“prev”(文章页上下篇链接)、检查重复的URL等等。
功能介绍
Spider的抓取方式可以分为Spider与URL,简单点理解就是一个你可以放一个页面或域名开始抓取,另外一个则是放一个url文件进去抓取。
你在输入好url或选择好url文件后则会开始抓取内容,那么问题来了,Spider可以为我们抓取页面的什么内容呢?
页面链接
文件类型与编码
HTTP状态码和状态
Title与长度
Description与长度
Keywords与长度
H1标签文本与长度
H2标签文本与长度
Canonical URL
其他(文件大小,字数,层数,内链数量,站外链接数量等)
对于链接抓取的限制上,Spider也做了许多功能。首先是下面的特殊限制:
检查图片
检查css文件
检查js文件
检查swf文件,也就是Flash之类的
检查外部链接
检查目录以外的链接
跟踪标识Nofollow的站内链接
跟踪表示Nofollow的外部链接
忽略robots.txt
总共抓取数量
总共抓取层数
这里大家可能还是看不太懂,那Adrian为大家简单举例解释一下。
案例一:D姐想要抓UC所有页面,其中不包括CSS,JS,SWF(因为这些浪费时间和资源)。那么就可以取消勾选四个选项了;
案例二:民工想要像蜘蛛一样爬取UC的页面,那么就可以只勾选Ignore robots.txt这一项了;
案例三:何元想要只抓dx的首页所有链接,全部勾选上,除了不要勾Ignore与Limit search toal就可以了,当然记得勾上Limit Search Depth 并设置层级为1;
如果还看不懂,那我也无能为力了,只能是找D姐给你好好培训一下SEO了。
其实Spider的功能有许多,我就不一一提及了。说几个我常用的功能吧!
第一个,正则爬行页面。
在configuration中的include和exclude里都有可以写正则的地方,在那里你可以设置你想要特定抓取爬行的链接。至于怎么使坏,需要你自己想象了。
第二个,速度限制。
在configuration中的Speed中有关于速度的限制,这里需要提一下的是速度上的限制不仅仅指的是线程,还有限制抓取URL速度,例如你想要1 URL/S,又或者是2 URL/S。这个功能可以躲避部分有防重复爬行限制的网站。
第三个,User Agent设置。
在configuration中有一个User Agent里可以设置你的身份,你可以设置为某搜索引擎的蜘蛛或浏览器都可以。
第四个,自定义字段检查功能。
同样是在configuration中的custom,这个功能可以说是比较好用的功能,主要是可以让Spider在爬行抓取的同时可以根据你所设置的自定义字段进行筛选。例如:我在Custom设置了包含DVD这个字眼,那么所有出现DVD字眼的页面都会特别筛选出来。
还有其他的功能,如:代理抓取,制作sitemap,导出url等功能,都是比较实用的。
提取码:526663