蛙扑下载站:安全、绿色、放心的专业下载站! 首页|最近更新|专题集合|标签云|站内导航
Web Scraper下载-Web Scraper网页爬虫插件 v0.5.4 最新版下载

Web Scraper网页爬虫插件 v0.5.4 最新版

  • 软件大小:1MB
  • 更新日期:2020-11-17 10:46:09
  • 软件语言:简体中文
  • 软件类别:编程工具
  • 软件版本:免费软件
  • 评分等级:
  • 软件厂商:
  • 软件官网:
  • 适用平台:Win All
本地下载文件大小:1MB
软件介绍 人气软件 相关文章 下载地址

Web Scraper是一款非常好用的chrome网页爬虫插件,Web Scraper适用于各种类型的网站,可以帮助用户轻松抓取网站上的所有数据内容,可任意选择抓取范围,让你想抓就抓随心所欲,还支持将抓取的内容导出为CSV格式的文件,需要的朋友赶紧来本站下载吧!

web scraper

Web Scraper操作简单易上手,你不需要写任何的代码,只需轻松几步就能通过该插件来建立页面数据提取规则,帮助用户实现数据爬取功能,可以快速,有效,准确的提取页面数据。

软件特色

1、刮多页

2、从动态页面

3、出口刮数据作为CSV

4、进口,出口的Sitemaps

5、只依赖于Chrome浏览器

6、提取数据(的JavaScript AJAX)

7、刮数据存储在本地存储或CouchDB的

8、浏览刮数据/> 3、多个数据选择类型

软件功能

使用多线程快速扫描任何网站

在WebScraper主窗口中,必须指定要扫描的网页的URL地址以及用于完成此过程的线程数。你可以借助一个简单的滑块来调整后面的参数。

为避免任何不必要的扫描,您可以选择仅抓取单个网页,然后通过简单的鼠标点击开始此过程。在实时查看窗口中,您可以看到每个链接返回的状态消息,这在处理调试任务时可能会很有用。

提取各种类型的信息,并将数据导出为CSV或JSON

在WebScraper输出面板中,您可以选择希望实用程序从网页中提取的信息类型:URL,标题,描述,与不同类或ID关联的内容,标题,页面内容各种格式(纯文本,HTML或markdown)和最后修改日期。

您还可以选择输出文件格式(CSV或JSON),决定合并空格,并在文件超出一定大小时设置警报。如果您选择采用CSV格式,则可以选择何时在列周围使用引号,采用引号替换引号或行分隔符类型。

最后但并非最不重要的是,WebScraper还允许您更改用户代理,设置链接数量和来自主页的点击数量的限制,可以忽略查询字符串,并可将根域的子域作为内部页面。

Web Scraper使用教程

1、标签页输入【chrome://extensions/】进入chrome扩展程序,解压你在本页下载的Web Scraper插件,并拖入扩展程序页即可。

2、插件安装完成后,在浏览器中会出现其按钮标记。用户可以先在设置页面中对该插件的储存设置和储存类型功能进行设置。

3、用户可以使用Web Scraper插件来抓取页面,其操作方法如下:

1)、打开你要抓取的网页。

首先要使用该插件来提取网页数据需要在开发者工具模式中使用,使用快捷键Ctrl+Shift+I/F12或者点击右键,选择“检查(Inspect)”,在开发者工具下面就能看到WebScraper的Tab。如下图所示:

web scraper截图1

2)、新建一个Sitemap。点击Create New Sitemap,里面有两个选项,import sitemap是指导入一个现成的sitemap,咱小白一般没有现成的,所以一般不选这个,选create sitemap 就好。

web scraper截图2

然后进行这两个操作:

(1)Sitemap Name:代表你这个Sitemap是适用于哪一个网页的,所以你可以根据网页来自命名,不过需要使用英文字母,比如我抓的是今日头条的数据,那我就用toutiao来命名;

(2)Sitemap URL:把网页链接复制到Star URL这一栏,比如图片里我把「吴晓波频道」的主页链接复制到了这一栏,而后点击下方的create sitemap来新建一个Sitemap。

3)、设置这个Sitemap

整个Web Scraper的抓取逻辑是这样:设置一级 Selector,选定抓取范围;在一级 Selector 下设置二级 Selector,选定抓取字段,然后抓取。

对于文章而言,一级 Selector 就是你要把这一块文章的要素圈出来,这个要素可能包含了 标题、作者、发布时间、评论数等等,然后我们再在二级 Selector 中挑出我们要的要素,比如标题、作者、阅读数。

下面我们来拆解这个设置一级、二级 Selector 的工作流:

web scraper截图3

(1)点击 Add new selector 创建一级 Selector。

而后按照以下步骤操作:

输入id:id代表你抓取的整个范围,比如这里是文章,我们可以命名为wuxiaoboarticles;

选择Type:type 代表你抓取的这部分的类型,比如元素/文本/链接,因为这个是整个文章要素范围选取,我们需要用Element 来先整体选取(如果这个网页需要滑动加载更多,那就选 Element Scroll Down);

勾选Multiple:勾选 Multiple 前面的小框,因为你要选的是多个元素而不是单个元素,当我们勾选的时候,爬虫插件会帮助我们识别多篇同类的文章;

保留设置:其余未提及部分保留默认设置。

(2)点击select选择范围,按照以下步骤操作:

选择范围:用鼠标选择你要爬取数据的范围,绿色是待选区域,用鼠标点击后变为红色,才是选中了这块区域;

多选:不要只选一个,下面的也要选,否则爬出来的数据也只有一行;

完成选择:记得点Done Selecting;

保存:点击Save Selector。

web scraper截图4

(3)设置好了这个一级的Selector之后,点进去设置二级的Selector,按照以下步骤操作:

新建Selector:点击 Add new selector ;

输入id:id代表你抓取的是哪个字段,所以可以取该字段的英文,比如我要选「作者」,我就写「writer」;

选择Type:选Text,因为你要抓取的是文本;

勿勾选Multiple:不要勾选 Multiple 前面的小框,因为我们在这里要抓取的是单个元素;

保留设置:其余未提及部分保留默认设置。

web scraper截图5

(4)点击 select,再点击你要爬取的字段,按照以下步骤操作:

选择字段:这里爬取的字段是单个的,用鼠标点击该字段即可选定,比如要爬标题,那就用鼠标点击某篇文章的标题,当字段所在区域变红即为选中;

完成选择:记得点 Done Selecting;

保存:点击 Save Selector。

web scraper截图6

(5)重复以上操作,直到选完你想爬的字段。

4、爬取数据

(1)之后你想要爬取数据只需要设置完所有的Selector就可以开始:

点击Scrape,然后点Start Scraping,弹出一个小窗后爬虫就会开始工作。你会得到一个列表,上面有你想要的所有数据。

(2)如果你希望把这些数据做一个排序,比如按照阅读量、赞数、作者等指标排序,让数据更一目了然,那么你可以点击 Export Data as CSV,把它导入 Excel 表里。

(3)导入 Excel 表格之后,你就可以对数据进行筛选了。

web scraper截图7

我们这里只是简单介绍总结了Web Scraper的插件的功能,安装以及一个简单的单页面例子。其实Web Scraper的功能远远不止于此,其实还能抓取分页,还能多页多元素的抓取,还能抓取二级页面。

标签 chrome插件
下载地址

Web Scraper网页爬虫插件 v0.5.4 最新版

不能下载请在下面评论区留言反馈