← 返回首页

项目01:数据清洗实战

处理缺失值、异常值,格式化时间序列,计算总价

📊 数据集预览

使用 retail_orders.csv 数据集,包含订单ID、产品、数量、价格、地区、日期等信息。

retail_orders.csv(前5行)

🎯 学习目标

  • 加载CSV数据文件
  • 检查数据的基本信息
  • 识别并处理缺失值
  • 处理异常值
  • 格式化日期时间列
  • 计算新特征(如总价)

💻 实战练习

1. 加载数据

使用 pd.read_csv() 读取CSV文件。

代码编辑器
点击"运行代码"查看输出...

2. 查看数据信息

使用 info() 和 describe() 了解数据概况。

代码编辑器
点击"运行代码"查看输出...

3. 检查缺失值

使用 isnull() 或 isna() 检查缺失值。

代码编辑器
点击"运行代码"查看输出...

4. 处理缺失值

使用 fillna() 填充或 dropna() 删除缺失值。

代码编辑器
点击"运行代码"查看输出...

5. 格式化日期

使用 pd.to_datetime() 转换日期格式。

代码编辑器
点击"运行代码"查看输出...

6. 计算总价

创建新列 total = quantity × price。

代码编辑器
点击"运行代码"查看输出...