小白的python学习之路！掌握Pandas：Python中的数据分析利器

站长

2024年04月01日 16:05 · 阅读数 91

前言

Pandas是Python中最流行的数据分析工具之一，它提供了强大的数据结构和功能，使你能够轻松地处理、分析和可视化数据。本文将介绍Pandas的两个主要数据结构：DataFrame和Series，以及一些常见的用例和代码示例。

1. DataFrame：数据的核心

DataFrame是Pandas的核心数据结构，它类似于电子表格或数据库表，由行和列组成。每一列可以包含不同类型的数据，使其非常适合处理结构化数据。

创建DataFrame

你可以从各种数据源创建DataFrame，如CSV文件、Excel文件或手动创建。下面是一个示例，从CSV文件创建DataFrame：

import pandas as pd

# 从CSV文件读取数据
data = pd.read_csv('sales_data.csv')

# 查看前几行数据
print(data.head())

数据操作

DataFrame支持各种数据操作，如数据筛选、合并、分组、排序和汇总。以下是一些示例：

# 选择特定列
product_names = data['Product Name']

# 条件筛选
high_sales = data[data['Sales'] > 1000]

# 分组和汇总
sales_by_category = data.groupby('Category')['Sales'].sum()

# 数据排序
sorted_data = data.sort_values(by='Sales', ascending=False)

2. Series：单一特征的利器

Series是Pandas的另一个重要数据结构，它类似于Python中的列表，但带有索引。通常用于表示单一特征的数据列。

创建Series

下面是一个示例，创建一个销售数量的时间序列：

import pandas as pd

# 创建Series
sales_series = pd.Series([100, 150, 200, 250, 300], 
index=['2023-01-01', 
       '2023-01-02', 
       '2023-01-03', 
       '2023-01-04', 
       '2023-01-05'])

# 查看数据
print(sales_series)

数据操作

Series支持索引、切片、数学运算和统计计算。以下是一些示例：

# 使用索引选择第三天的销售数量
sales_on_day3 = sales_series['2023-01-03']

# 使用切片访问第2到第4天的销售数量
sales_between_day2_and_day4 = sales_series['2023-01-02':'2023-01-04']

# 数学运算，将数据翻两倍
double_sales = sales_series * 2

# 统计计算，计算数据平均值
mean_sales = sales_series.mean()

3. 常用Pandas函数和方法

Pandas库提供了众多函数和方法，用于数据处理和分析。以下是一些常用的函数和方法，以及它们的用法示例。

数据导入和导出

3.1 从CSV文件读取数据

import pandas as pd

# 从CSV文件读取数据
data = pd.read_csv('sales_data.csv')

# 查看前几行数据
print(data.head())

3.2 保存DataFrame为CSV文件

# 将DataFrame保存为CSV文件
data.to_csv('saved_data.csv', index=False)

数据查看和基本信息

3.3 查看前几行数据

# 查看前几行数据
print(data.head())

3.4 显示DataFrame的基本信息

# 显示DataFrame的基本信息
print(data.info())

数据选择和筛选

3.5 选择特定列

# 选择特定列
product_names = data['Product Name']

3.6 条件筛选

# 条件筛选
high_sales = data[data['Sales'] > 1000]

数据处理和变换

3.7 删除行或列

# 删除行或列
data = data.drop(['Column1', 'Column2'], axis=1)  # 删除列
data = data.drop([0, 1, 2], axis=0)  # 删除行

3.8 填充缺失值

# 填充缺失值
data['Column1'].fillna(0, inplace=True)  # 使用0填充Column1列的缺失值

数据计算和统计

3.9 计算平均值

# 计算平均值
mean_sales = data['Sales'].mean()

3.10 数据排序

# 数据排序
sorted_data = data.sort_values(by='Sales', ascending=False)

数据可视化

3.11 绘制数据图表

# 绘制数据图表
data['Sales'].plot(kind='bar', title='Sales Data')

这些是Pandas库中一些常见的函数和方法，用于数据导入、查看、选择、筛选、处理、计算、排序和可视化。这些工具使数据分析和数据处理变得更加高效和便捷。

当涉及到Pandas库的函数和方法时，以下是更多有用的函数和操作，这些函数和方法涵盖了Pandas库的主要功能领域，使你能够进行数据清洗、转换、分析和可视化。

数据聚合和汇总

3.12 使用`groupby`和`agg`进行数据聚合

groupby函数用于分组数据，然后可以使用agg函数应用不同的聚合函数，执行多个聚合操作。这对于生成摘要统计信息非常有用。

# 分组数据并计算不同聚合操作
grouped_data = data.groupby('Category').agg({'Sales': 'sum', 'Profit': 'mean'})

3.13 创建数据透视表

pivot_table函数用于创建数据透视表，用于汇总和聚合数据。它允许你以不同的方式对数据进行交叉分析。

# 创建数据透视表
pivot = data.pivot_table(index='Category', columns='Region', values='Sales', aggfunc='sum')

数据清洗和处理

3.14 删除重复的行

drop_duplicates函数用于删除DataFrame中的重复行。

# 删除重复的行
data = data.drop_duplicates()

3.15 重命名列或索引

rename函数用于重命名DataFrame的列或索引。

# 重命名列
data = data.rename(columns={'old_column_name': 'new_column_name'})

3.16 替换特定值

replace函数用于替换DataFrame中的特定值。

# 替换特定值
data['Column1'].replace(0, 1, inplace=True)  # 将0替换为1

3.17 应用函数到DataFrame的每个元素

applymap函数可用于将函数应用到DataFrame的每个元素。

# 将函数应用到DataFrame的每个元素
data = data.applymap(lambda x: x*2)  # 将每个元素翻倍

数据计算和统计

3.18 计算列的平均值、总和和相关性

Pandas提供了多种计算函数，如mean()、sum()、min()、max()和corr()，用于计算列的平均值、总和、最小值、最大值和相关性等。

# 计算平均值
mean_sales = data['Sales'].mean()

# 计算总和
total_profit = data['Profit'].sum()

# 找到最小值
min_quantity = data['Quantity'].min()

# 找到最大值
max_discount = data['Discount'].max()

# 计算列之间的相关性
correlation = data['Sales'].corr(data['Profit'])

字符串操作

3.19 字符串大写、模式匹配和拆分

Pandas的字符串方法允许你对字符串列执行各种操作，如将字符串转换为大写、执行模式匹配和拆分字符串。

# 将字符串列转换为大写
data['Product Name'] = data['Product Name'].str.upper()

# 检查字符串列中是否包含特定模式
pattern = 'ABC'
contains_pattern = data['Description'].str.contains(pattern)

# 拆分字符串列
data['First Name'], data['Last Name'] = data['Full Name'].str.split(' ', 1).str

时间序列操作

3.20 重新采样和滚动计算

对于时间序列数据，Pandas提供了resample和rolling函数，用于重新采样数据和执行滚动计算。

# 重新采样时间序列数据
daily_data = data.resample('D').sum()

# 执行滚动计算
rolling_mean = data['Sales'].rolling(window=7).mean()

缺失数据处理

3.21 处理缺失数据

Pandas提供了处理缺失数据的函数，如dropna、fillna和interpolate，用于删除、填充或插值缺失值。

# 删除包含缺失值的行或列
data = data.dropna()

# 填充缺失值
data['Column1'].fillna(0, inplace=True)

# 插值填充缺失值
data['Column2'].interpolate(method='linear', inplace=True)

多索引操作

3.22 设置和重置索引

set_index函数用于设置列作为索引，而reset_index函数用于重置索引。

# 设置列作为索引
data = data.set_index('Date')

# 重置索引为空
data = data.reset_index()

结语

Pandas是数据科学家、分析师和工程师的利器，它提供了强大的工具来处理和分析数据。无论你是初学者还是有经验的数据分析师，掌握Pandas都将提高你的数据处理效率。希望本文对你了解Pandas有所帮助，进一步探索和学习Pandas，你将能够更轻松地应对数据分析任务。

本文只是Pandas的入门指南，还有很多高级功能和技巧等待你去发现。博主也会继续学习和实践，后续还会继续分享python相关的内容！

Happy coding!

转载自:https://juejin.cn/post/7295575713342947343

小白的python学习之路！掌握Pandas：Python中的数据分析利器

前言

1. DataFrame：数据的核心

创建DataFrame

数据操作

2. Series：单一特征的利器

创建Series

数据操作

3. 常用Pandas函数和方法

数据导入和导出

3.1 从CSV文件读取数据

3.2 保存DataFrame为CSV文件

数据查看和基本信息

3.3 查看前几行数据

3.4 显示DataFrame的基本信息

数据选择和筛选

3.5 选择特定列

3.6 条件筛选

数据处理和变换

3.7 删除行或列

3.8 填充缺失值

数据计算和统计

3.9 计算平均值

3.10 数据排序

数据可视化

3.11 绘制数据图表

数据聚合和汇总

3.12 使用groupby和agg进行数据聚合

3.13 创建数据透视表

数据清洗和处理

3.14 删除重复的行

3.15 重命名列或索引

3.16 替换特定值

3.17 应用函数到DataFrame的每个元素

数据计算和统计

3.18 计算列的平均值、总和和相关性

字符串操作

3.19 字符串大写、模式匹配和拆分

时间序列操作

3.20 重新采样和滚动计算

缺失数据处理

3.21 处理缺失数据

多索引操作

3.22 设置和重置索引

结语

3.12 使用`groupby`和`agg`进行数据聚合