02.用requests来做几个实操案例

1.请求的过程,包含了3个函数

一是网址,二是关键词,三是请求头

2.百度翻译破解案例中

初步了解到Ajax技术,也就是一种无需加载整个页面的前提下,能更新部分页面的技术,里面用到的是post请求,返回的是json数据(也就是字典对象,类似于text数据类型)

3.Json也是一个模块,需要导入

4.网页爬取不出来,后来才查到是因为开了ssr,导致半天都不出结果

5.豆瓣电影排行榜列表的提取,其实就是一个简单的requests.get代码:【response = requests.get(url=url,params=param,headers=headers)】后面的三个参数都在开头输入了。后面就是用json模式来保存即可。

6.一种不同于前面爬虫的网页形态:打开化妆品生产许可信息管理系统服务平台的网站,第一页直接就展示了一个公司列表,也就是我们所要的数据。但是发现直接对当前网址进行requests.get却除了列表以外,其他的数据都爬进来了。这是因为这是一个【动态加载】的网页,在里面依然镶嵌了ajax技术。

7.笨办法的升级:查看当前网页是静态还是动态的。

看检查元素里的response的代码里有没当前我们要的关键信息,如果没有,则可以判定当前页面是ajax技术

8.Get和post最大的区别是前者把参数都放在了url里了

9.字典的循环遍历等基础功夫还是要扎实,少一个括号就执行不了

10.在要获取的对象中,面对ajax这种动态的页面,如果要让爬虫遍历每一页,需要写一个for循环给param参数。如for page in range(1,6):

11.注意插入for循环后,后续的步骤是否要纳入统一层级里

35 thoughts on “02.用requests来做几个实操案例

  1. cialis 5mg It is concluded that during fetal life progesterone antagonizes the effect of estradiol but tamoxifen can act as an agonist or an antagonist of estrogen action which is a function of the type of response or organ considered

  2. Your article gave me a lot of inspiration, I hope you can explain your point of view in more detail, because I have some doubts, thank you.

  3. Pingback: xo666
  4. Pingback: hoyt eclipse

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注