八爪鱼数据爬虫如何使用 下载本文

内容发布更新时间 : 2024/5/5 9:43:07星期一 下面是文章的全部内容请认真阅读。

八爪鱼·云采集网络爬虫软件

www.bazhuayu.com

八爪鱼数据爬虫如何使用

八爪鱼作为目前最火的一款网页数据爬虫软件,对于大多数没有接触过这类软件的用户来说,到底如何使用呢?八爪鱼采集原理就是模拟人浏览网页的行为进行数据采集的,目前八爪鱼提供两个采集模式,简易采集和自定义采集,简易采集只要选择自己要爬的网站模板,再配置相应的参数即可;自定义采集是需要用户将网址放到八爪鱼里打开后,再设置相应的采集步骤,比如最基本的打开网页、点击元素,提取数据等,这边主要讲一下怎么使用自定义模式去爬取网页数据。 1、打开网页

本步骤根据设定的网址打开网页,一般为网页采集流程的第一个步骤,用来打开指定的网站或者网页。如果有多个类似的网址需要分别打开执行同样的采集流程,则应该放置在循环的内部,并作为第一个子步骤。

八爪鱼·云采集网络爬虫软件

www.bazhuayu.com

2、点击元素

本步骤对网页上指定的元素执行鼠标左键单击动作,比如点击按钮、点击超链接等。

3、输入文本

本步骤在输入框中输入指定的文本,例如输入搜索关键词,输入账号等。 将设定的文本输入到网页的某个输入框中,如使用搜索引擎时输入关键字。

八爪鱼·云采集网络爬虫软件

www.bazhuayu.com

4、循环

本步骤用来重复执行一系列步骤,根据配置不同,支持多种循环方式。1)循环单个元素:循环点击页面中的某个按钮; 2)循环固定元素列表:循环处理网页中固定数目的元素; 3)循环不固定元素列表:循环处理网页中不固定数目的元素; 4)循环URL列表:循环打开一批指定网址的网页,然后执行同样的处理步骤;5)循环文本列表:循环输入一批指定文字,然后执行同样的处理步骤。

5、提取数据

本步骤根据提取数据模板的配置,从网页中提取数据,同时还可添加特殊字段:当前时间、固定字段、添加空字段、添加当前网页网址等。

八爪鱼·云采集网络爬虫软件

www.bazhuayu.com

另外,八爪鱼的规则市场有很多已经做好的规则,可直接下载后导入八爪鱼使用。 1、如何下载采集规则

八爪鱼采集器内置了规则市场,由用户分享配置好的采集规则,互帮互助。 使用规则市场下载规则,可以不用花费时间研究和配置采集流程。很多网站的采集规则都可以在规则市场中搜索到,下载运行即可采集。

下载规则有以下三种方式:打开八爪鱼官网(http://www.bazhuayu.com)->爬虫规则;打开八爪鱼采集器客户端->市场->爬虫规则;直接在浏览器中访问数多多官网(http://www.dataduoduo.com)->爬虫规则。

八爪鱼·云采集网络爬虫软件

www.bazhuayu.com

2、如何使用规则

一般从规则市场下载的规则是.otd为后缀的规则文件,4.*以后的版本中会自动导入下载的规则文件。以前的版本中需要手动导入下载的规则文件。将下载好的规则存储到相应位置。然后打开八爪鱼客户端->任务->导入->选择任务。从邮件或者其他即时通讯软件接受到的规则同理。