如何使用Requests模块抓取网页-古蔺大橙子建站

新闻中心

这里有您想知道的互联网营销解决方案

如何使用Requests模块抓取网页

这篇文章主要介绍“如何使用Requests模块抓取网页”的相关知识，小编通过实际案例向大家展示操作过程，操作方法简单快捷，实用性强，希望这篇“如何使用Requests模块抓取网页”文章能帮助大家解决问题。

诸城ssl适用于网站、小程序/APP、API接口等需要进行数据传输应用场景，ssl证书未来市场广阔！成为创新互联的ssl证书销售渠道，可以享受市场价格4-6折优惠！如果有意向欢迎电话联系或者加微信：028-86922220（备注：SSL证书合作）期待与您的合作！

爬取网页其实就是通过URL获取网页信息，网页信息的实质是一段添加了JavaScript和CSS的HTML代码。Python提供了一个抓取网页信息的第三方模块requests,requests模块自称“HTTP for Humans”,直译过来的意思是专门为人类而设计的HTTP模块，该模块支持发送请求，也支持获取响应。

1.发送请求

requests模块提供了很多发送HTTP请求的函数，常用的请求函数具体如表10-1所示。

表10-1 requests模块的请求函数

如何使用Requests模块抓取网页

2.获取响应

requests模块提供的Response 类对象用于动态地响应客户端的请求，控制发送给用户的信息，并且将动态地生成响应，包括状态码、网页的内容等。接下来通过一张表来列举Response类可以获取到的信息，如表10-2所示。

表10-2 Response 类的常用属性

如何使用Requests模块抓取网页

接下来通过一个案例来演示如何使用requests模块抓取百度网页，具体代码如下：

# 01 requests baidu
import requests
base_url = 'http://www.baidu.com'
#发送GET请求
res = requests.get (base_url)
print("响应状态码：{}".format(res.status_code))#获取响应状态码
print（"编码方式：{}".format(res.encoding)）#获取响应内容的编码方式
res.encoding = 'utf-8'#更新响应内容的编码方式为UIE-8
print（"网页源代码：n{}".format(res.text）) ＃获取响应内容

以上代码中，第2行使用import导入了requests模块；第3~4行代码根据URL向服务器发送了一个GET请求，并使用变量res接收服务器返回的响应内容；第5~6行代码打印了响应内容的状态码和编码方式；第7行将响应内容的编码方式更改为“utf-8”；第8行代码打印了响应内容。运行程序，程序的输出结果如下：

响应状态码：200
编码方式：ISO-8859-1
网页源代码：
百度一下,你就知道…省略N行…

值得一提的是，使用requests模块爬取网页时，可能会因为没有连接网络、服务器连接失败等原因导致产生各种异常，最常见的两个异常是URLError和HTTPError，这些网络异常可以使用 try…except 语句捕获与处理。

关于“如何使用Requests模块抓取网页”的内容就介绍到这里了，感谢大家的阅读。如果想了解更多行业相关的知识，可以关注创新互联行业资讯频道，小编每天都会为大家更新不同的知识点。

本文标题：如何使用Requests模块抓取网页
本文链接：http://scgulin.cn/article/gojhdp.html

新闻中心

1.发送请求

2.获取响应

其他资讯