机器学习基础-监督学习-训练数据-数据清洗

站长

2024年04月03日 11:29 · 阅读数 93

在机器学习中，数据清洗是指对原始数据进行预处理，以去除数据中的错误、重复、缺失值和异常值等问题。数据清洗可以提高数据质量和模型性能，从而使机器学习算法更加准确地分析和预测。

下面我们以 Python 中的 pandas 库为例，介绍常见的数据清洗方法：

1. 去重

去重是指去除数据中重复的记录，常用的 pandas 函数为 drop_duplicates()。

在数据分析和机器学习中，经常会遇到数据中存在重复记录的情况，这些重复的记录可能会对分析和模型训练产生影响。因此，需要对数据进行去重处理。

在 Python 中，使用 Pandas 库可以非常方便地进行去重处理。Pandas 中的 drop_duplicates() 函数可以去除数据框或者序列中的重复记录。

下面给出一个示例代码，以演示如何使用 drop_duplicates() 函数进行去重处理：

import pandas as pd

# 创建一个数据框
data = pd.DataFrame({'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],
                     'B': ['one', 'one', 'two', 'three', 'two', 'two', 'one', 'three'],
                     'C': [1, 2, 1, 1, 2, 1, 1, 2]})

print("原始数据框：")
print(data)

# 去重
data_drop = data.drop_duplicates()

print("去重后的数据框：")
print(data_drop)

上述代码中，首先创建了一个包含重复记录的数据框 data，然后使用 drop_duplicates() 函数对其进行去重处理，得到去重后的数据框 data_drop。

drop_duplicates() 函数有几个可选参数：

subset：指定需要去重的列名，默认为所有列。
keep：指定去重后保留哪个记录，默认为第一个记录。
inplace：是否原地修改数据框，默认为 False。

下面给出一个示例代码，以演示如何使用 subset 和 keep 参数：

import pandas as pd

# 创建一个数据框
data = pd.DataFrame({'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],
                     'B': ['one', 'one', 'two', 'three', 'two', 'two', 'one', 'three'],
                     'C': [1, 2, 1, 1, 2, 1, 1, 2]})

print("原始数据框：")
print(data)

# 指定需要去重的列和保留最后一个记录
data_drop = data.drop_duplicates(subset=['A', 'B'], keep='last')

print("去重后的数据框：")
print(data_drop)

上述代码中，使用 subset 参数指定了需要去重的列为 ['A', 'B']，使用 keep 参数指定了保留最后一个记录。因此，在去重后，数据框 data_drop 中仅保留了每个 ['A', 'B'] 组合中的最后一个记录。

总之，数据去重是数据清洗的重要步骤之一，在实际应用中常常需要进行。使用 Pandas 库提供的 drop_duplicates() 函数可以非常方便地实现数据去重。

2. 缺失值处理

在机器学习中，缺失值处理是数据预处理的重要环节之一。缺失值是指数据中的某些值未被记录或者记录不完整，可能会影响模型的训练和预测结果。因此，需要对缺失值进行处理，常用的方法包括删除缺失值、填充缺失值等。

下面我们以 Python 中的 pandas 库为例，介绍常见的缺失值处理方法：

2.1 删除缺失值

删除缺失值是指直接将缺失值所在的记录从数据中删除，常用的 pandas 函数为 dropna()。以下是示例代码：

import pandas as pd

# 读取数据文件
data = pd.read_csv('data.csv')

# 删除缺失值
data = data.dropna()

# 输出处理后的数据记录数
print("处理后的记录数：", len(data))

2.2 填充缺失值

填充缺失值是指用某些值替换缺失值，常用的填充方法包括使用平均值、中位数、众数等。以下是示例代码：

import pandas as pd

# 读取数据文件
data = pd.read_csv('data.csv')

# 使用平均值填充缺失值
mean = data['age'].mean()
data['age'].fillna(mean, inplace=True)

# 使用中位数填充缺失值
median = data['income'].median()
data['income'].fillna(median, inplace=True)

# 使用众数填充缺失值
mode = data['gender'].mode()[0]
data['gender'].fillna(mode, inplace=True)

# 输出处理后的数据记录数
print("处理后的记录数：", len(data))

2.3 插值填充

插值填充是指用缺失值前后的数据进行线性插值来填充缺失值。常用的插值函数包括 interpolate() 和 fillna(method='ffill')。以下是示例代码：

import pandas as pd

# 读取数据文件
data = pd.read_csv('data.csv')

# 使用插值填充缺失值
data = data.interpolate()

# 使用前向填充填充缺失值
data.fillna(method='ffill', inplace=True)

# 输出处理后的数据记录数
print("处理后的记录数：", len(data))

需要注意的是，不同的数据集和任务可能需要采用不同的缺失值处理方法。在进行缺失值处理时，需要对数据的特性和任务需求进行分析和调整，以保证数据的质量和适用性。

3. 异常值处理

在数据处理中，异常值是指与其他观测值相比显著不同的值，可能是由于数据收集或者输入错误、设备故障等原因导致。异常值会对数据分析和机器学习等任务产生不良影响，因此需要进行处理。下面我们介绍几种常见的异常值处理方法：

3.1 删除异常值

删除异常值是指直接从数据集中删除所有被认为是异常值的观测值。这种方法的优点是简单、易于实现，但可能会造成信息的丢失，特别是当数据集中的异常值比例较高时。以下是示例代码：

import pandas as pd

# 读取数据文件
data = pd.read_csv('data.csv')

# 删除年龄小于0或大于100的异常值
data = data[(data['age'] >= 0) & (data['age'] <= 100)]

# 输出异常值数量
print("删除异常值后的记录数：", len(data))

3.2 替换异常值

替换异常值是指将异常值替换为某个合理的值，比如平均值、中位数等。这种方法的优点是可以保留所有数据，但可能会引入新的偏差。以下是示例代码：

import pandas as pd
import numpy as np

# 读取数据文件
data = pd.read_csv('data.csv')

# 计算年龄的中位数
age_median = np.median(data['age'])

# 将年龄小于0或大于100的异常值替换为中位数
data.loc[data['age'] < 0, 'age'] = age_median
data.loc[data['age'] > 100, 'age'] = age_median

# 输出异常值数量
print("替换异常值后的记录数：", len(data))

3.3 离散化

离散化是指将连续的数值变量转换为离散的值，比如将年龄分为多个年龄段。这种方法的优点是可以将连续的数值转换为离散的类别，但可能会引入新的偏差。以下是示例代码：

import pandas as pd
import numpy as np

# 读取数据文件
data = pd.read_csv('data.csv')

# 将年龄分为3个年龄段：0-20、20-50、50-100
data['age_bin'] = pd.cut(data['age'], bins=[0, 20, 50, 100], labels=['0-20', '20-50', '50-100'])

# 输出异常值数量
print("离散化后的记录数：", len(data))

除了以上几种方法，还有一些其他的异常值处理方法，比如使用机器学习模型预测异常值、使用规则过滤异常值等。在实际应用中，需要根据具体情况选择合适的异常值处理方法。

转载自:https://juejin.cn/post/7226918565545771066