构造衍生变量,编码类别,分箱与特征变换
使用 user_logs 数据集,包含用户ID、登录次数、购买次数、消费金额等信息。
首先读取用户行为数据集。
计算平均每次登录消费金额。
将性别转换为数值编码。
将年龄分组为不同区间。
对数值特征进行标准化处理。
import pandas as pd df = pd.read_csv('user_logs.csv')
print(df.info())
df['avg_spent_per_purchase'] = df['total_spent'] / df['purchases']
df['gender_encoded'] = df['gender'].map({'F': 0, 'M': 1})
bins = [0, 30, 45, 100] labels = ['年轻', '中年', '年长'] df['age_group'] = pd.cut(df['age'], bins=bins, labels=labels)
df['logins_std'] = (df['logins'] - df['logins'].mean()) / df['logins'].std()
df['is_high_spender'] = (df['total_spent'] > 1000).astype(int)
import numpy as np df['logins_log'] = np.log(df['logins'])