← 返回首页

项目08: 特征工程

构造衍生变量,编码类别,分箱与特征变换

📊 数据集预览

使用 user_logs 数据集,包含用户ID、登录次数、购买次数、消费金额等信息。

user_logs.csv(前5行)

🎯 学习目标

  • 从现有列计算衍生特征
  • 对类别变量进行编码
  • 对连续变量进行分箱
  • 特征标准化与归一化
  • 特征筛选与变换

💻 实战练习

1. 加载数据

首先读取用户行为数据集。

代码编辑器
点击"运行代码"查看输出...

2. 构造衍生特征

计算平均每次登录消费金额。

代码编辑器
点击"运行代码"查看输出...

3. 类别编码

将性别转换为数值编码。

代码编辑器
点击"运行代码"查看输出...

4. 连续变量分箱

将年龄分组为不同区间。

代码编辑器
点击"运行代码"查看输出...

5. 特征标准化

对数值特征进行标准化处理。

代码编辑器
点击"运行代码"查看输出...