likes
comments
collection
share

Python网络爬虫-基本原理(1)

作者站长头像
站长
· 阅读数 4

爬虫基本原理

1.网页请求的过程

(1)Request,每个展示在我们面前的网页都必须经过这一步,也就是向服务器发送访问请求。 在python中需要导入requests模块:

import requests

(2)Response,服务器接收到用户请求后,会验证请求的有效性,然后向用户发送响应的内容;用户接受服务器响应的内容,将内容展示出来,这就是我们熟悉的网页请求。

2.网页请求的方式

(1)GET:最常见的方式,一般用于获取或查询资源信息,参数设置在URL中。

(2)POST:通过request body传递参数,可发送请求的信息远大于GET方式。

2.1 用GET方式抓取数据

返回结果如下:

Python网络爬虫-基本原理(1)

后面文章会补充HTML相关的知识。

2.2 使用POST方式抓取数据

Python网络爬虫-基本原理(1)

Python网络爬虫-基本原理(1)

首先,将Headers中的URL复制出来,并赋值给url,代码如下:

url = "https://fanyi.baidu.com/v2transapi?from=zh&to=en"

POST请求获取数据的方式不同于GET,GET可以通过URL传递参数,而POST参数则需要放在请求实体里。

Python网络爬虫-基本原理(1)

将FORM DATA的请求参数做一个字典,接下来用requests.post()方法请求表单数据,代码如下:

import requests
response = requests.post(url,data = Form_data)

将字符串格式的数据转换成JSON格式的数据,并根据数据结构提取数据,将翻译结果打印出来,代码如下。

import json
content = json.loads(response.text)
print(content['translateResult'][0][0]['tgt'])

网页的获取与响应就写到这里,如果大家有更好的方法,请分享一下!