八爪鱼爬虫模拟登录抓取数据 下载本文

内容发布更新时间 : 2024/4/28 18:00:46星期一 下面是文章的全部内容请认真阅读。

八爪鱼·云采集服务平台

www.bazhuayu.com

Cookie登录方法(7.0)-图10

本教程重点是教用户怎么通过记住Cookie登录网站,后面的数据采集步骤,按照之前的教程提取。具体可参考:分页列表信息采集 分页列表详细信息采集 AJAX点击和翻页(上) AJAX点击和翻页(下) AJAX滚动教程

注意:cookie是有生命周期的,周期时间取决于采集的网站。如果cookie到期了,就需要再重新获取一次登陆之后的cookie。

另外如果需要切换账号,可以勾选打开浏览器前清理缓存,然后再取消cookie,重新设置其他账号即可。

八爪鱼·云采集服务平台

www.bazhuayu.com

Cookie登录方法(7.0)-图11

注意:有些网站,这个登录框其实是iframe的登录框。iframe即html标签,会创建包含另外一个文档的内联框架(即行内框架),含义是网页中的网页。

例如上面天猫的登陆地址,八爪鱼获取的是当时操作时的iframe,但是天猫有防采集措施,如果登录框的xpath有变化的话,就需要通过下面的方式获取登录框的详细URL直接输入这个URL做登陆流程。

我们可以通过火狐获取登陆框的详细地址,然后直接输入这个详细的地址进行流程设计。在火狐浏览器上,用鼠标右键点击登录框,选择此框架,查看框架信息,地址。这个地址,即为登录框的真实地址。获取到这个地址之后,在八爪鱼里,输入这个地址做规则即可。

Cookie登录方法(7.0)-图12:查看框架信息

八爪鱼·云采集服务平台

www.bazhuayu.com

Cookie登录方法(7.0)-图13:复制地址栏中的URL

Cookie登录方法(7.0)-图14:在网页中打开复制的URL

八爪鱼·云采集服务平台

www.bazhuayu.com

相关采集教程:

天猫店铺采集 黄页88数据采集 搜狗微信文章采集

八爪鱼——70万用户选择的网页数据采集器。

1、操作简单,任何人都可以用:无需技术背景,会上网就能采集。完全可视化流程,点击鼠标完成操作,2分钟即可快速入门。

2、功能强大,任何网站都可以采:对于点击、登陆、翻页、识别验证码、瀑布流、Ajax脚本异步加载数据的网页,均可经过简单设置进行采集。

3、云采集,关机也可以。配置好采集任务后可关机,任务可在云端执行。庞大云采集集群24*7不间断运行,不用担心IP被封,网络中断。

4、功能免费+增值服务,可按需选择。免费版具备所有功能,能够满足用户的基本采集需求。同时设置了一些增值服务(如私有云),满足高端付费企业用户的需要。