Python网络爬虫-基本原理（1）

站长

2024年04月16日 15:55 · 阅读数 104

爬虫基本原理

（1）Request,每个展示在我们面前的网页都必须经过这一步，也就是向服务器发送访问请求。在python中需要导入requests模块:

import requests

（2）Response,服务器接收到用户请求后，会验证请求的有效性，然后向用户发送响应的内容；用户接受服务器响应的内容，将内容展示出来，这就是我们熟悉的网页请求。

（1）GET：最常见的方式，一般用于获取或查询资源信息，参数设置在URL中。

（2）POST：通过request body传递参数，可发送请求的信息远大于GET方式。

返回结果如下：

Python网络爬虫-基本原理（1）

后面文章会补充HTML相关的知识。

Python网络爬虫-基本原理（1）

首先，将Headers中的URL复制出来，并赋值给url，代码如下：

url = "https://fanyi.baidu.com/v2transapi?from=zh&to=en"

POST请求获取数据的方式不同于GET，GET可以通过URL传递参数，而POST参数则需要放在请求实体里。

Python网络爬虫-基本原理（1）

将FORM DATA的请求参数做一个字典，接下来用requests.post()方法请求表单数据，代码如下：

import requests
response = requests.post(url,data = Form_data)

将字符串格式的数据转换成JSON格式的数据，并根据数据结构提取数据，将翻译结果打印出来，代码如下。

import json
content = json.loads(response.text)
print(content['translateResult'][0][0]['tgt'])

网页的获取与响应就写到这里，如果大家有更好的方法，请分享一下！

转载自:https://juejin.cn/post/7025391495255425061