八爪鱼爬虫模拟登录抓取数据 下载本文

内容发布更新时间 : 2024/5/13 10:47:40星期一 下面是文章的全部内容请认真阅读。

八爪鱼·云采集服务平台

www.bazhuayu.com

八爪鱼使用cookie登陆网站采集数据(7.0版本)

本文给大家演示,通过记录Cookie登录网站,再进行数据采集的方式。

Cookie:某些网站为了辨别用户身份、进行 session 跟踪而储存在用户本地终端上的数据(通常经过加密)。

在八爪鱼里,有些网站是需要登陆账号之后,才能进行采集数据。我们需要先做一个登录流程,登陆进网站,然后获取登陆后的Cookie,记住登陆状态,浏览器即会自动打开登陆后要采集的网址。

登录网址:

https://login.taobao.com/ 示例网址:

https://s.taobao.com/list?spm=a217f.8051907.312344.10.Xesvx1&style=grid&seller_type=taobao&cps=yes&cat=50000671

我们需要先创建一个登录流程:在登录网址里面,输入用户名、密码,登陆网站。然后获取登陆后的Cookie,记住登陆状态。

八爪鱼·云采集服务平台

www.bazhuayu.com

步骤1:打开网页

1)登陆八爪鱼7.0采集器,点击新建任务,选择“自定义采集”,进入到任务配置页面 2)然后输入登录网址,点击“保存网址”,系统会进入到流程设计页面并自动打开前面输入的登录网址

Cookie登录方法(7.0)-图1

步骤2:登录网站

1)在浏览器中,用鼠标点击用户名输入框,输入自己的用户名。用同样的方式输入密码

八爪鱼·云采集服务平台

www.bazhuayu.com

Cookie登录方法(7.0)-图2

2)在浏览器中,用鼠标点击登陆按钮,在右边弹出的提示框里选择“点击该按钮”(或直接按键盘上的enter键也可)

八爪鱼·云采集服务平台

www.bazhuayu.com

Cookie登录方法(7.0)-图3

3)浏览器会自动登陆,打开我们最终需要采集数据的网址。这时登陆流程便做好了

步骤3:新建“打开网页”

1)打开“流程”。在流程设计器中,拖入一个打开网页的步骤

2)输入最终要采集的网址URL,点击“确定”。八爪鱼浏览器以登录后的状态打开了此URL

八爪鱼·云采集服务平台

www.bazhuayu.com

Cookie登录方法(7.0)-图4

3)在拖入“打开网页”的步骤之后,默认超时时间是空白的。我们需要给网站设置一个加载时间,这里设置20秒即可