likes
comments
collection
share

机器学习基础-监督学习-训练数据-数据清洗

作者站长头像
站长
· 阅读数 12

在机器学习中,数据清洗是指对原始数据进行预处理,以去除数据中的错误、重复、缺失值和异常值等问题。数据清洗可以提高数据质量和模型性能,从而使机器学习算法更加准确地分析和预测。

下面我们以 Python 中的 pandas 库为例,介绍常见的数据清洗方法:

1. 去重

去重是指去除数据中重复的记录,常用的 pandas 函数为 drop_duplicates()。

在数据分析和机器学习中,经常会遇到数据中存在重复记录的情况,这些重复的记录可能会对分析和模型训练产生影响。因此,需要对数据进行去重处理。

在 Python 中,使用 Pandas 库可以非常方便地进行去重处理。Pandas 中的 drop_duplicates() 函数可以去除数据框或者序列中的重复记录。

下面给出一个示例代码,以演示如何使用 drop_duplicates() 函数进行去重处理:

import pandas as pd

# 创建一个数据框
data = pd.DataFrame({'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],
                     'B': ['one', 'one', 'two', 'three', 'two', 'two', 'one', 'three'],
                     'C': [1, 2, 1, 1, 2, 1, 1, 2]})

print("原始数据框:")
print(data)

# 去重
data_drop = data.drop_duplicates()

print("去重后的数据框:")
print(data_drop)

上述代码中,首先创建了一个包含重复记录的数据框 data,然后使用 drop_duplicates() 函数对其进行去重处理,得到去重后的数据框 data_drop。

drop_duplicates() 函数有几个可选参数:

  • subset:指定需要去重的列名,默认为所有列。
  • keep:指定去重后保留哪个记录,默认为第一个记录。
  • inplace:是否原地修改数据框,默认为 False。

下面给出一个示例代码,以演示如何使用 subset 和 keep 参数:

import pandas as pd

# 创建一个数据框
data = pd.DataFrame({'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],
                     'B': ['one', 'one', 'two', 'three', 'two', 'two', 'one', 'three'],
                     'C': [1, 2, 1, 1, 2, 1, 1, 2]})

print("原始数据框:")
print(data)

# 指定需要去重的列和保留最后一个记录
data_drop = data.drop_duplicates(subset=['A', 'B'], keep='last')

print("去重后的数据框:")
print(data_drop)

上述代码中,使用 subset 参数指定了需要去重的列为 ['A', 'B'],使用 keep 参数指定了保留最后一个记录。因此,在去重后,数据框 data_drop 中仅保留了每个 ['A', 'B'] 组合中的最后一个记录。

总之,数据去重是数据清洗的重要步骤之一,在实际应用中常常需要进行。使用 Pandas 库提供的 drop_duplicates() 函数可以非常方便地实现数据去重。

2. 缺失值处理

在机器学习中,缺失值处理是数据预处理的重要环节之一。缺失值是指数据中的某些值未被记录或者记录不完整,可能会影响模型的训练和预测结果。因此,需要对缺失值进行处理,常用的方法包括删除缺失值、填充缺失值等。

下面我们以 Python 中的 pandas 库为例,介绍常见的缺失值处理方法:

2.1 删除缺失值

删除缺失值是指直接将缺失值所在的记录从数据中删除,常用的 pandas 函数为 dropna()。以下是示例代码:

import pandas as pd

# 读取数据文件
data = pd.read_csv('data.csv')

# 删除缺失值
data = data.dropna()

# 输出处理后的数据记录数
print("处理后的记录数:", len(data))

2.2 填充缺失值

填充缺失值是指用某些值替换缺失值,常用的填充方法包括使用平均值、中位数、众数等。以下是示例代码:

import pandas as pd

# 读取数据文件
data = pd.read_csv('data.csv')

# 使用平均值填充缺失值
mean = data['age'].mean()
data['age'].fillna(mean, inplace=True)

# 使用中位数填充缺失值
median = data['income'].median()
data['income'].fillna(median, inplace=True)

# 使用众数填充缺失值
mode = data['gender'].mode()[0]
data['gender'].fillna(mode, inplace=True)

# 输出处理后的数据记录数
print("处理后的记录数:", len(data))

2.3 插值填充

插值填充是指用缺失值前后的数据进行线性插值来填充缺失值。常用的插值函数包括 interpolate() 和 fillna(method='ffill')。以下是示例代码:

import pandas as pd

# 读取数据文件
data = pd.read_csv('data.csv')

# 使用插值填充缺失值
data = data.interpolate()

# 使用前向填充填充缺失值
data.fillna(method='ffill', inplace=True)

# 输出处理后的数据记录数
print("处理后的记录数:", len(data))

需要注意的是,不同的数据集和任务可能需要采用不同的缺失值处理方法。在进行缺失值处理时,需要对数据的特性和任务需求进行分析和调整,以保证数据的质量和适用性。

3. 异常值处理

在数据处理中,异常值是指与其他观测值相比显著不同的值,可能是由于数据收集或者输入错误、设备故障等原因导致。异常值会对数据分析和机器学习等任务产生不良影响,因此需要进行处理。下面我们介绍几种常见的异常值处理方法:

3.1 删除异常值

删除异常值是指直接从数据集中删除所有被认为是异常值的观测值。这种方法的优点是简单、易于实现,但可能会造成信息的丢失,特别是当数据集中的异常值比例较高时。以下是示例代码:

import pandas as pd

# 读取数据文件
data = pd.read_csv('data.csv')

# 删除年龄小于0或大于100的异常值
data = data[(data['age'] >= 0) & (data['age'] <= 100)]

# 输出异常值数量
print("删除异常值后的记录数:", len(data))

3.2 替换异常值

替换异常值是指将异常值替换为某个合理的值,比如平均值、中位数等。这种方法的优点是可以保留所有数据,但可能会引入新的偏差。以下是示例代码:

import pandas as pd
import numpy as np

# 读取数据文件
data = pd.read_csv('data.csv')

# 计算年龄的中位数
age_median = np.median(data['age'])

# 将年龄小于0或大于100的异常值替换为中位数
data.loc[data['age'] < 0, 'age'] = age_median
data.loc[data['age'] > 100, 'age'] = age_median

# 输出异常值数量
print("替换异常值后的记录数:", len(data))

3.3 离散化

离散化是指将连续的数值变量转换为离散的值,比如将年龄分为多个年龄段。这种方法的优点是可以将连续的数值转换为离散的类别,但可能会引入新的偏差。以下是示例代码:

import pandas as pd
import numpy as np

# 读取数据文件
data = pd.read_csv('data.csv')

# 将年龄分为3个年龄段:0-20、20-50、50-100
data['age_bin'] = pd.cut(data['age'], bins=[0, 20, 50, 100], labels=['0-20', '20-50', '50-100'])

# 输出异常值数量
print("离散化后的记录数:", len(data))

除了以上几种方法,还有一些其他的异常值处理方法,比如使用机器学习模型预测异常值、使用规则过滤异常值等。在实际应用中,需要根据具体情况选择合适的异常值处理方法。

转载自:https://juejin.cn/post/7226918565545771066
评论
请登录