数据清洗

发表于 2022-12-27 分类于 mechine 阅读次数：

数据清洗是数据预处理的重要步骤，用于识别和处理数据集中的错误、缺失值、重复值等问题，以确保数据的质量和可用性。以下是一些常见的数据清洗方法以及使用Python的示例代码：

处理缺失值：

缺失值可能会影响模型性能，需要进行处理。常见的方法包括删除带有缺失值的行、使用均值或中位数填充缺失值等。

import pandas as pd
import numpy as np

# 创建示例数据帧
data = {'A': [1, 2, np.nan, 4],
        'B': [5, np.nan, 7, 8]}
df = pd.DataFrame(data)

# 删除包含缺失值的行
cleaned_df = df.dropna()

# 使用均值填充缺失值
mean_fill_df = df.fillna(df.mean())

print("Original DataFrame:")
print(df)
print("\nDataFrame after dropping rows with missing values:")
print(cleaned_df)
print("\nDataFrame after filling missing values with mean:")
print(mean_fill_df)

处理重复值：

重复值可能会导致分析结果失真，需要对其进行处理。可以使用drop_duplicates函数删除重复行。

# 创建示例数据帧
data = {'A': [1, 2, 2, 4],
        'B': [5, 6, 6, 8]}
df = pd.DataFrame(data)

# 删除重复行
deduplicated_df = df.drop_duplicates()

print("Original DataFrame:")
print(df)
print("\nDataFrame after removing duplicate rows:")
print(deduplicated_df)

异常值处理：

异常值可能会影响模型的稳定性和预测性能。一种方法是使用统计方法识别和处理异常值。

# 创建示例数据帧
data = {'A': [10, 20, 30, 200],
        'B': [5, 15, 25, 50]}
df = pd.DataFrame(data)

# 标准差方法识别和处理异常值
mean = df['A'].mean()
std = df['A'].std()
threshold = 2  # 可根据需求调整
df['A'] = np.where(np.abs(df['A'] - mean) > threshold * std, mean, df['A'])

print("Original DataFrame:")
print(df)

以上只是数据清洗的一些常见方法示例，实际应用中根据问题的性质和数据的特点，可能需要采用不同的处理方式。