likes
comments
collection
share

【Python实战】Python中parsel两种获取数据方式

作者站长头像
站长
· 阅读数 6

⭐️网页解析利器parsel实战

        我们以实际的案例,来具体了解学习其功能。我们在这里重点讲解其两种方式。一个是XPATH,一个是CSS。我们以某网为例,获取其新闻标题。

🌟 parsel简介

Parsel是一个用于解析JSON数据的Python库。它提供了一个简单易用的API,可以轻松地从JSON文件或字符串中解析数据。可以对 HTML 和 XML 进行解析,并支持使用 XPath 和 CSS Selector 对内容进行提取和修改,同时它还融合了正则表达式提取的功能。功能灵活而又强大。

🌟发送请求

我们先确定目标网址,我们为了让新手更好的学习,我们这里以中国新闻网为例,不讲太复杂的案例。如果,想更好的提升自己,可以尝试学习我之前发的文章。这篇文章使用的方法也是parsel。

我们发送请求,获取数据。我们相信大家这里的代码都会写了。

import parsel
import requests

url = 'https://www.xxxxx.com/importnews.html'

responses = requests.get(url)
responses.encoding=responses.apparent_encoding
print(responses.text)

【Python实战】Python中parsel两种获取数据方式

我们使用requests.get()函数来发送HTTP请求,并将响应存储在responses变量中。在这个例子中,我们将响应的文本内容存储在responses.text变量中。

🌟解析数据

我们获取到了网页源代码之后,我们使用parsel方法对其解析,处理网页源代码。

selector = parsel.Selector(responses.text)

【Python实战】Python中parsel两种获取数据方式

我们使用 parsel 库的 Selector 对象来选择 responses.text 中的特定元素。

我们使用开发者工具,观察标题在哪个标签位置里面。

【Python实战】Python中parsel两种获取数据方式【Python实战】Python中parsel两种获取数据方式​编辑

由上图,我们可以看到,我们标题信息就在

  • 标签里面。我们可以提取