爬虫就是这么简单(WEB SCRAPER中文指南)
使用感受
一开始使用时感觉非常厉害,因为它相当于直接模拟浏览器(数据获取的最终方案),几乎大多数网站都不可能进行限制。但是,它的局限性也很大。首先,我无法配置用户信息,这对于很多验证复杂的网站就无效了。同时,对于大批量数据的获取速度也不是很快。这里的大批量数据获取是指开多个线程进行数据的获取。此外,对于一个频繁更新的网站,每一次都要改动数据获取配置比改改代码更耗费时间。总之,这个工具适合那些不会数据获取的人使用。如果你会数据获取,就不用继续往下看了,这会浪费你的时间。
文章目的
为了那些一点也不会数据获取的人也可以从网络上批量下载自己所需要的资料,您不需要编写复杂的代码只需要进行数据获取配置即可。
简介
WebScraper是一款数据获取的浏览器插件,旨在让枯燥乏味的数据获取变得简单,方便,大众化。您这边只需要简单的几个步骤便可以获取海量的数据。
安装指南
官方支持Fierfox浏览器和Chrome浏览器
Chrome浏览器安装步骤:
首先使用Chrome浏览器输入网址:
chrome.google.com/webstore/de…
之后你会看到一个界面(如下图),点击添加到Chrome
Fierfox浏览器安装步骤:
首先使用Fierfox浏览器输入网址:
addons.mozilla.org/en-US/firef…
之后你会看到一个页面(如下图),点击Add to Firefox
抓取网站设定
首先打开你想要爬取的网站,然后打开开发者管理工具,鼠标右键页面空白部分打开选项选择检查(mac用户双指打开选项)。windows系统可以使用快捷键Ctrl+Shift+I,Linux使用F12,苹果电脑Cmd+Opt+I
创建站点地图
创建站点地图时,你需要做的第一件事是指定起始抓取的url,如果需要从多个开始位置抓取,可以设置多个url,实际操作根据具体情况来设定。
打开后您将会看到一个调试栏,点击Web Scraper
接下来创建一个Sitemap,填写名称及爬取网址,填写完成后点击Create Sitemap
如果需要添加多个起始网址,可以通过Edit metadata在Sitemap sitemap_name 下拉列表中选择来找到开始 URL 选项卡。
点击进入Sitemaps并选择自己创建的Sitemap
点击Edit metadata
点击加号并添加自己需要的网址
选择器
选择器对于Web scraper来说是比较重要的一部分,它可以帮助您获取你想要的数据。
Web scraper 有多个选择器,可用于不同类型的数据提取和与网站的不同交互。选择器可以分为三组:用于数据提取的数据提取选择器。用于站点导航的链接选择器。用于分隔多条记录的元素选择的元素选择器,创建选择器也特别简单,选择自己创建的网站地图,点击Add new selector
点击进入Sitemaps并选择自己创建的Sitemap
点击Add new selector
数据提取选择器
数据提取选择器只是从所选元素返回数据。例如,文本选择器从选定元素中提取文本。接下来具体介绍每一个数据提取选择器
文本选择器
文本选择器用于文本选择。文本选择器将从所选元素及其所有子元素中提取文本。HTML 将被剥离,只返回文本。选择器将忽略
下图中,id是选择器的名称,Type是选择器的类型,Selector包含元素的选择,元素的预览和数据的预览,Multiple是是否有多条元素,Regex是正则表达式相当于数据规整,Parent Selectors是当前选择器的归属父类(此说明适用于所有选择器)。
链接选择器
链接选择器用于链接选择和网站导航。如果您使用没有任何子选择器的链接选择器,那么它将提取链接和链接的href 属性。如果您将子选择器添加到链接选择器 ,那么这些子选择器将用于该链接指向的页面。如果您选择多个链接,请勾选Multiple。
弹出链接选择器
Link popup selector 的工作方式与Link selector类似。它可用于 url 提取和站点导航。唯一的区别是当点击链接时应该使用链接弹出窗口选择器,网站会打开一个新窗口(弹出窗口),而不是在同一选项卡中加载 URL 或在新选项卡中打开它。此选择器将捕获弹出窗口创建事件并提取 URL。如果该网站创建了一个可视弹出窗口而不是一个真正的窗口,那么您应该尝试元素点击选择器。
图像选择器
图像选择器可以提取src图像的属性(URL)。
表格选择器
表格选择器可以从表中提取数据。表格选择器有3个可配置的 CSS 选择器。选择器用于表格选择。选择选择器后,表选择器将尝试猜测标题行和数据行的选择器。您可以单击这些选择器上的元素预览以查看表格选择器是否正确找到表格标题和数据行。当从多个页面中提取数据时,标题行选择器用于标识表格列。您也可以重命名表列。
元素属性选择器
元素属性选择器可以提取 HTML 元素的属性值。例如,您可以使用此选择器从此链接中提取标题属性:<a href="#" title="my title">link<a>
。
HTML选择器
HTML 选择器可以提取所选元素内的 HTML 和文本。只会提取元素的内部 HTML。
元素选择器
元素选择器用于包含多个数据元素的元素选择。例如,元素选择器可能用于选择电子商务网站中的项目列表。选择器会将每个被选择的元素作为父元素返回给它的子选择器。元素选择器子选择器将仅在元素选择器给它们的元素内提取数据。
元素向下滚动选择器
这是另一个元素选择器,它的工作方式与元素选择器类似,但它会多次向下滚动页面以找到当页面向下滚动到底部时添加的那些元素。使用 delay 属性配置滚动和元素搜索之间的等待间隔。找不到新元素后停止滚动。如果页面可以无限滚动,那么这个选择器将陷入无限循环。
元素点击选择器
Element click selector 的工作方式与 Element selector类似。它的主要目的也是元素选择,可以作为其子选择器的父元素。唯一不同的是,Element click selector可以通过点击按钮加载新元素来与网页交互
分页选择器
分页选择器用于浏览所有分页页面或使用按钮加载所有项目Load more。分页选择器总是递归的,所以所有的分页页面都会被发现。要从分页页面中提取数据,必须将数据提取选择器设置为分页选择器的子选择器
Sitemap.xml 链接选择器
Sitemap.xml 链接选择器可以像链接选择器一样使用以到达目标页面(例如产品页面)。通过使用此选择器,无需为分页或其他站点导航设置选择器即可遍历整个站点。Sitemap.xml 链接选择器从sitemap.xml网站发布的文件中提取 URL,以便搜索引擎抓取工具可以更轻松地浏览网站。在大多数情况下,它们包含所有与站点相关的页面 URL。
Web Scraper 支持标准的 sitemap.xml 格式。该sitemap.xml文件也可以压缩 ( sitemap.xml.gz)。如果 sitemap.xml 包含指向其他 sitemap.xml 文件的 URL,选择器将递归地工作以查找子sitemap.xml文件中的所有 URL
分组选择器
分组选择器可以将来自多个元素的文本数据分组到一条记录中。提取的数据将存储为 JSON。
使用教程
首先打开浏览器,鼠标右键页面空白部分打开选项选择检查(mac用户双指打开选项)
打开后您将会看到一个调试栏,点击Web Scraper
接下来创建一个Sitemap,填写名称及爬取网址,填写完成后点击Create Sitemap
点击进入Sitemaps并选择自己创建的Sitemap
接下来开始关键步骤
点击Add new selector
首先获取所有项目的链接
id随意取名,Type选择Link,然后点击Select选取需要的链接,结束后点击Done selecting
因为数据不止一条所以选中Multiple,如果数据只有一条就不选,填写完点击Save selector
由于我们需要详情页的信息所以要进入子页面
点击我们刚刚保存的selector
创建新的selector,参考文章前面部分
注意:有些时候网站会新页面,不过操作是一样的。只不过是到新页面,将需要的元素复制到当前页面
此时我们要获取信息title
首先id可以随意取名,Type选择文本,点击Select然后选中所需要的信息,选择完成点击Done selecting
由于此页面只有标题我们需要所以不勾选Multiple,最后selector填写信息为下图
配置项已完成接下来开始爬取数据
点击中间的按钮,选择Scrape,点击Start scraping
最后一步获取数据,点击中间按钮,点击Export data选择自己需要的格式
转载自:https://juejin.cn/post/7238088526910799933