SysNucleus WebHarvy是一款非常不错的网页数据采集器,旨在使您能够自动从网页提取数据并将提取的内容保存为不同的格式。使用WebHarvy,从网页捕获数据就像导航到包含数据的页面并单击要捕获的数据一样容易。有需要的小伙伴欢迎来西西下载。
软件简介:
WebHarvy是一个方便的应用程序,旨在使您能够自动从网页提取数据并将提取的内容保存为不同的格式。使用WebHarvy,从网页捕获数据就像导航到包含数据的页面并单击要捕获的数据一样容易。
WebHarvy将智能地识别网页中出现的数据模式。使用WebHarvy,您可以从各种网站(例如房地产,电子商务,学术研究,娱乐,技术等)中提取数据,例如产品目录或搜索结果。
从网页提取的数据可以以多种格式保存。网页通常在多个页面中显示诸如搜索结果之类的数据。WebHarvy可以自动爬网并从多个页面提取数据。
软件特征:
简易网页搜刮
WebHarvy的指向和点击界面使Web Scraping很容易。绝对不需要编写任何代码或脚本来刮取数据。您将使用WebHarvy的内置浏览器加载网站,并且可以通过单击鼠标来选择要提取的数据。就这么简单!(视频)
智能模式检测
WebHarvy自动识别网页中出现的数据模式。因此,如果您需要从网页上抓取项目列表(名称,地址,电子邮件,价格等),则无需进行任何其他配置。如果数据重复,WebHarvy将自动对其进行刮擦。 保存到文件或数据库
您可以用多种格式保存从网站提取的数据。当前版本的WebHarvy Web搜寻软件允许您将提取的数据另存为Excel,XML,CSV,JSON或TSV文件。您也可以将抓取的数据导出到SQL数据库。(了解更多)
抓取多页
网站通常会在多个页面中显示诸如产品列表或搜索结果之类的数据。WebHarvy可以自动爬网并从多个页面提取数据。只需指出“加载下一页的链接”,WebHarvy Web Scraper就会自动从所有页面抓取数据。(了解更多)
提交关键字
通过自动提交输入关键字列表以搜索表单来擦除数据。可以将任意数量的输入关键字提交到多个输入文本字段以执行搜索。可以从输入关键字所有组合的搜索结果中提取数据。(了解更多)(视频)
保护隐私
为了匿名抓取并防止Web抓取软件被Web服务器阻止,您可以选择通过代理服务器或VPN访问目标网站。可以使用单个代理服务器地址或代理服务器地址列表。(了解更多)
类别抓取
WebHarvy Web抓取工具使您可以从链接列表中抓取数据,这些链接会导致网站中出现类似的页面/列表。这使您可以使用单一配置在网站内抓取类别和子类别。(了解更多)(视频)
常用表达
WebHarvy允许您在网页的文本或HTML源上应用正则表达式(RegEx)并抓取匹配的部分。这项功能强大的技术可在您抓取数据时提供更大的灵活性。(了解更多) (RegEx教程)
JavaScript支持
提取数据之前,请在浏览器中运行您自己的JavaScript代码。它可用于与页面元素进行交互,修改DOM或调用已在目标页面中实现的JavaScript函数。(了解更多)
图像提取
可以下载图像或提取图像URL。WebHarvy可以自动提取显示在电子商务网站产品详细信息页面中的多个图像。(了解更多)
自动化浏览器任务
WebHarvy可以轻松配置为执行诸如单击链接,选择列表/下拉选项,向字段输入文本,滚动页面,打开弹出窗口等任务。
技术援助
购买WebHarvy后,您将在购买之日起的1年内获得我们的免费更新和免费支持。
WebHarvy入门:
1.首先,下载并安装WebHarvy的免费试用版。
2.在此处观看该软件的基本演示视频。
3.观看更详细的视频教程。
4. 此处提供在线教程/功能帮助。
5.尝试配置WebHarvy以根据您的要求提取数据,如果遇到任何困难,请在此处与我们的支持联系,并提供必要的详细信息。
6.我们在此处的YouTube频道中收集了大量视频,展示了各种网站的配置过程和数据提取要求。