← 返回首页

项目02：销售数据分组聚合

使用 groupby 进行多维度数据分析，计算统计指标

📊 数据集预览

使用 retail_orders 数据集，包含订单ID、产品、数量、价格、地区、日期等信息。

retail_orders.csv（前5行）

🎯 学习目标

掌握 groupby 的基本用法
学会按单个或多个维度分组
使用聚合函数（sum、mean、count、median）
对分组结果进行排序
计算分组统计指标

📚 知识点讲解

什么是分组聚合？

分组聚合（GroupBy）是数据分析中最强大的操作之一，它允许我们：

按一个或多个列对数据进行分组
对每个组应用聚合函数（求和、平均、计数等）
分析数据的分布和模式

💡 小贴士：groupby 的工作原理可以概括为：split（拆分）- apply（应用）- combine（合并）

一、基本分组操作

1.1 按单列分组

使用 groupby() 方法按单个列分组，然后应用聚合函数。

# 按产品分组并求和
product_group = df.groupby('product').sum()

print(product_group)

1.2 选择特定列聚合

可以只对特定列进行聚合操作，提高效率。

# 只对 quantity 列求和
product_qty = df.groupby('product')['quantity'].sum()

print(product_qty)

1.3 按多列分组

传入列名列表，可以按多个维度进行分组。

# 按产品和地区两个维度分组
multi_group = df.groupby(['product', 'region']).sum()

print(multi_group)

二、常用聚合函数

2.1 sum() - 求和

计算每组的总和，常用于计算总销售额、总数量等。

# 按地区分组计算总销量
region_sales = df.groupby('region')['quantity'].sum()

print(region_sales)

2.2 mean() - 均值

计算每组的平均值，常用于计算平均价格、平均订单量等。

# 按产品分组计算平均价格
product_mean = df.groupby('product')['price'].mean()

print(product_mean)

2.3 count() - 计数

计算每组的非缺失值数量，常用于统计订单数。

# 按地区统计订单数量
region_count = df.groupby('region')['order_id'].count()

print(region_count)

2.4 median() - 中位数

计算每组的中位数，适合处理有异常值的数据。

# 按产品计算价格中位数
product_median = df.groupby('product')['price'].median()

print(product_median)

三、高级聚合技巧

3.1 使用 agg() 应用多个函数

agg() 允许同时对同一列应用多个聚合函数。

# 同时计算 sum 和 mean
product_stats = df.groupby('product')['quantity'].agg(['sum', 'mean'])

print(product_stats)

3.2 对不同列应用不同函数

可以为不同列指定不同的聚合函数。

# 对 quantity 求和，对 price 求均值
product_agg = df.groupby('product').agg({
    'quantity': 'sum',
    'price': 'mean'
})

print(product_agg)

3.3 分组后排序

对分组结果进行排序，找出最大/最小的组。

# 按产品分组并排序
product_group = df.groupby('product')['quantity'].sum()
sorted_result = product_group.sort_values(ascending=False)

print(sorted_result)

💡 小贴士：ascending=False 表示降序排序，ascending=True 表示升序排序（默认）

💻 代码实战

在下方代码编辑器中编写并运行完整的分组聚合代码：

02-groupby/main.py

# 分组聚合实战
# 请在这里编写完整的分组聚合代码

# 1. 导入必要的库


# 2. 读取数据


# 3. 按产品分组计算总销量


# 4. 按地区分组计算平均价格


# 5. 按产品和地区多维度分组


# 6. 使用 agg() 同时计算多个指标


# 7. 对分组结果排序


# 8. 输出结果

点击"运行代码"按钮执行

📋 总代码运行框

import pandas as pd

df = pd.read_csv('retail_orders.csv')

product_sales = df.groupby('product')['quantity'].sum()
print("各产品销量:")
print(product_sales)

region_price = df.groupby('region')['price'].mean()
print("\n各地区平均价格:")
print(region_price)

multi_group = df.groupby(['product', 'region'])['quantity'].sum()
print("\n产品地区销量:")
print(multi_group)

product_stats = df.groupby('product').agg({
    'quantity': ['sum', 'mean'],
    'price': 'mean'
})
print("\n产品统计:")
print(product_stats)

点击"运行代码"查看输出...

✏️ 编程练习题（8道）

第1题简单

使用 groupby 按 'product' 列分组，并计算各列的总和。

你的代码

点击"提交答案"自动评分...

参考答案

product_group = df.groupby('product').sum()
print(product_group)

第2题简单

按 'region' 列分组，并计算 'quantity' 列的平均值。

你的代码

点击"提交答案"自动评分...

参考答案

region_mean = df.groupby('region')['quantity'].mean()
print(region_mean)

第3题简单

按 'product' 分组，计算 'quantity' 列的中位数。

你的代码

点击"提交答案"自动评分...

参考答案

product_median = df.groupby('product')['quantity'].median()
print(product_median)

第4题中等

按 'product' 和 'region' 两个列进行分组，并计算总和。

你的代码

点击"提交答案"自动评分...

参考答案

multi_group = df.groupby(['product', 'region']).sum()
print(multi_group)

第5题中等

按 'product' 分组并求和，然后按 'quantity' 列降序排序。

你的代码

点击"提交答案"自动评分...

参考答案

product_group = df.groupby('product').sum()
sorted_product = product_group.sort_values('quantity', ascending=False)
print(sorted_product)

第6题中等

使用 agg() 函数，按 'region' 分组并计算 'quantity' 的 sum 和 mean。

你的代码

点击"提交答案"自动评分...

参考答案

region_agg = df.groupby('region')['quantity'].agg(['sum', 'mean'])
print(region_agg)

第7题困难

按 'product' 分组，对 'quantity' 列计算 sum，对 'price' 列计算 mean。

你的代码

点击"提交答案"自动评分...

参考答案

product_stats = df.groupby('product').agg({
    'quantity': 'sum',
    'price': 'mean'
})
print(product_stats)

第8题困难

计算各产品的总销量，并按总销量降序排序，只显示销量最高的3个产品。

你的代码

点击"提交答案"自动评分...

参考答案

product_group = df.groupby('product')['quantity'].sum()
sorted_product = product_group.sort_values(ascending=False)
print(sorted_product.head(3))

📝 复习题

1. 在 Pandas 中，用于分组聚合的函数是？

A. pd.group()

B. .groupby()

C. df.aggregate()

D. df.sort()

2. 下列哪个不是常用的聚合函数？

A. sum()

B. mean()

C. concat()

D. count()

3. 按多个列分组的正确写法是？

A. df.groupby('col1').groupby('col2')

B. df.groupby(['col1', 'col2'])

C. df.groupby('col1', 'col2')

D. df.groupby('col1+col2')

4. sort_values(ascending=False) 的作用是？

A. 升序排序

B. 降序排序

C. 随机排序

D. 逆序排列

5. agg() 函数的作用是？

A. 只计算总和

B. 只计算平均值

C. 同时应用多个聚合函数

D. 删除缺失值

🎯 测试题

1. df.groupby('product').sum() 会返回什么？

A. 各产品的平均值

B. 各产品的总和

C. 各产品的计数

D. 各产品的中位数

2. 要对分组结果进行排序，应该使用什么方法？

A. sort()

B. sort_values()

C. order()

D. arrange()

3. 下列关于 groupby 的说法，正确的是？

A. 只能按单个列分组

B. 分组后只能使用 sum() 聚合

C. 可以按多个列分组

D. 分组后不能进行排序

4. df.groupby('product')['quantity'].agg(['sum', 'mean']) 会返回什么？

A. 只返回 sum

B. 只返回 mean

C. 同时返回 sum 和 mean 两列

D. 报错

5. 只选取销量最高的3个产品，应该使用？

A. head(3)

B. tail(3)

C. sort_values() 降序排序后使用 head(3)

D. sample(3)