处理缺失值、异常值,格式化时间序列,计算总价
使用 retail_orders.csv 数据集,包含订单ID、产品、数量、价格、地区、日期等信息。
使用 pd.read_csv() 读取CSV文件。
使用 info() 和 describe() 了解数据概况。
使用 isnull() 或 isna() 检查缺失值。
使用 fillna() 填充或 dropna() 删除缺失值。
使用 pd.to_datetime() 转换日期格式。
创建新列 total = quantity × price。
import pandas as pd df = pd.read_csv('retail_orders.csv')
print(df.head(10))
print(df.info())
print(df.isnull().sum())
df['quantity'] = df['quantity'].fillna(0)
df = df.dropna()
df['order_date'] = pd.to_datetime(df['order_date'])
df['total'] = df['quantity'] * df['price']