← 返回首页

项目08: 特征工程

构造衍生变量，编码类别，分箱与特征变换

📊 数据集预览

使用 user_logs 数据集，包含用户ID、登录次数、购买次数、消费金额等信息。

user_logs.csv（前5行）

🎯 学习目标

从现有列计算衍生特征
对类别变量进行编码
对连续变量进行分箱
特征标准化与归一化
特征筛选与变换

💻 实战练习

知识点1：加载数据

首先读取用户行为数据集，这是特征工程的第一步。

import pandas as pd

df = pd.read_csv('user_logs.csv')
print(df.head())

💡 小贴士：pd.read_csv() 是 Pandas 最常用的数据读取函数，支持多种参数配置。

知识点2：构造衍生特征

通过现有列的运算创建新特征，这是特征工程中最常用的技巧。

df['avg_spent_per_login'] = df['total_spent'] / df['logins']
df['conversion_rate'] = df['purchases'] / df['logins']
print(df[['user_id', 'avg_spent_per_login', 'conversion_rate']].head())

⚠️ 注意事项：构造衍生特征时要注意除零问题，可以使用 .replace(0, 1) 或条件判断来处理。

知识点3：类别编码

将类别变量转换为数值，适合机器学习算法处理。

df['gender_encoded'] = df['gender'].map({'F': 0, 'M': 1})
print(df[['gender', 'gender_encoded']].head())

💡 小贴士：map() 方法非常适合单列的映射转换，也可使用 LabelEncoder 或 pd.get_dummies() 进行更复杂的编码。

知识点4：连续变量分箱

将连续变量划分为不同的区间，便于模型捕捉非线性关系。

bins = [0, 25, 35, 50, 100]
labels = ['青年', '中青年', '中年', '中老年']
df['age_group'] = pd.cut(df['age'], bins=bins, labels=labels)
print(df[['age', 'age_group']].head())

⚠️ 注意事项：分箱边界的选择会影响模型效果，需要结合业务理解和数据分布来决定。

知识点5：特征标准化

将数值特征转换为均值为0、标准差为1的分布，适用于需要距离计算的算法。

df['logins_std'] = (df['logins'] - df['logins'].mean()) / df['logins'].std()
print(df[['logins', 'logins_std']].head())

💡 小贴士：对于有异常值的数据，可以使用 RobustScaler：(x - 中位数) / IQR 进行更稳健的标准化。

综合代码运行

import pandas as pd

df = pd.read_csv('user_logs.csv')
print("数据集加载成功！")
print(df.head())

df['avg_spent_per_login'] = df['total_spent'] / df['logins']
df['conversion_rate'] = df['purchases'] / df['logins']

df['gender_encoded'] = df['gender'].map({'F': 0, 'M': 1})

bins = [0, 25, 35, 50, 100]
labels = ['青年', '中青年', '中年', '中老年']
df['age_group'] = pd.cut(df['age'], bins=bins, labels=labels)

df['logins_std'] = (df['logins'] - df['logins'].mean()) / df['logins'].std()

print(df.head())

点击"运行代码"查看输出...

🚀 总代码运行框 - 特征工程完整示例

import pandas as pd
import numpy as np

df = pd.read_csv('user_logs.csv')
print("=" * 50)
print("特征工程 - 完整示例")
print("=" * 50)

print("\n【1】原始数据预览:")
print(df.head())

print("\n【2】构造衍生特征:")
df['avg_spent_per_login'] = df['total_spent'] / df['logins']
df['conversion_rate'] = df['purchases'] / df['logins']
df['avg_spent_per_purchase'] = df['total_spent'] / df['purchases']
print(df[['user_id', 'avg_spent_per_login', 'conversion_rate', 'avg_spent_per_purchase']].head())

print("\n【3】类别编码:")
df['gender_encoded'] = df['gender'].map({'F': 0, 'M': 1})
print(df[['gender', 'gender_encoded']].head())

print("\n【4】连续变量分箱:")
bins = [0, 30, 45, 60, 100]
labels = ['青年', '中青年', '中年', '中老年']
df['age_group'] = pd.cut(df['age'], bins=bins, labels=labels)
print(df[['age', 'age_group']].head())

print("\n【5】特征标准化:")
df['logins_std'] = (df['logins'] - df['logins'].mean()) / df['logins'].std()
print(df[['logins', 'logins_std']].head())

print("\n【6】创建二值特征:")
df['is_high_spender'] = (df['total_spent'] > 1000).astype(int)
print(df[['total_spent', 'is_high_spender']].head())

print("\n【7】对数变换:")
df['logins_log'] = np.log(df['logins'])
print(df[['logins', 'logins_log']].head())

print("\n" + "=" * 50)
print("特征工程完成！新特征列表:")
print("=" * 50)
print(df.columns.tolist())
print("\n最终数据预览:")
print(df.head())

点击"运行全部代码"查看完整输出...

✏️ 编程练习题（8道）

第1题简单

读取 user_logs.csv 文件，保存到变量 df 中。

你的代码

点击"提交答案"自动评分...

参考答案

import pandas as pd

df = pd.read_csv('user_logs.csv')

第2题简单

查看数据的基本信息。

你的代码

点击"提交答案"自动评分...

参考答案

print(df.info())

第3题简单

创建新列 avg_spent_per_purchase，计算每次购买的平均消费金额（total_spent / purchases）。

你的代码

点击"提交答案"自动评分...

参考答案

df['avg_spent_per_purchase'] = df['total_spent'] / df['purchases']

第4题中等

使用 map 方法将 gender 列编码为数值，F→0，M→1，保存到 gender_encoded 列。

你的代码

点击"提交答案"自动评分...

参考答案

df['gender_encoded'] = df['gender'].map({'F': 0, 'M': 1})

第5题中等

使用 pd.cut 将 age 列分箱，分成 [0, 30, 45, 100]，标签为 ['年轻', '中年', '年长'。

你的代码

点击"提交答案"自动评分...

参考答案

bins = [0, 30, 45, 100]
labels = ['年轻', '中年', '年长']
df['age_group'] = pd.cut(df['age'], bins=bins, labels=labels)

第6题中等

计算 logins 列的标准化值，保存到 logins_std 列。

你的代码

点击"提交答案"自动评分...

参考答案

df['logins_std'] = (df['logins'] - df['logins'].mean()) / df['logins'].std()

第7题困难

创建新列 is_high_spender，当 total_spent 大于 1000 时为 1，否则为 0。

你的代码

点击"提交答案"自动评分...

参考答案

df['is_high_spender'] = (df['total_spent'] > 1000).astype(int)

第8题困难

创建新列 logins_log，对 logins 列进行对数变换（取自然对数）。

你的代码

点击"提交答案"自动评分...

参考答案

import numpy as np
df['logins_log'] = np.log(df['logins'])

📝 复习题

1. 在Pandas中，将连续变量分箱的函数是？

A. pd.bin()

B. pd.cut()

C. pd.group()

D. pd.split()

2. 用于字典映射值的方法是？

A. .map()

B. .apply()

C. .transform()

D. .replace()

3. 特征标准化通常是指？

A. (值 - 均值) / 标准差

B. 值 / 最大值

C. 值 - 最小值

D. 值 * 2

4. 将布尔值转换为整数的方法是？

A. .to_int()

B. .astype(int)

C. .convert()

D. .int()

5. 以下哪个不是特征工程的常见操作？

A. 构造衍生特征

B. 类别编码

C. 特征分箱

D. 删除所有数据

🎯 测试题

1. df['A'] / df['B'] 用于做什么？

A. 构造衍生特征

B. 计算两列相除，构造新特征

C. 类别编码

D. 特征分箱

2. pd.cut 的 labels 参数用于？

A. 设置分箱边界

B. 设置每个箱的标签

C. 设置数据类型

D. 设置索引

3. .map({'A': 1, 'B': 2} 会做什么？

A. 将值A替换为1，B替换为2

B. 将值1替换为A，2替换为B

C. 删除值A和B

D. 对A和B求和

4. 关于特征工程，以下说法正确的是？

A. 不需要考虑业务逻辑

B. 可以提高模型效果

C. 只对数值型特征有效

D. 特征越多越好

5. 对数变换通常用于？

A. 增大数据范围

B. 处理偏态分布

C. 编码类别变量

D. 删除异常值