← 返回首页

项目05：销售数据可视化

学习数据可视化基础，理解数据洞察

📊 数据集预览

使用 retail_orders 数据集，为可视化做准备。

retail_orders.csv（前5行）

🎯 学习目标

理解数据可视化的重要性
学习准备可视化数据
掌握数据聚合与排序
理解图表类型选择
培养数据洞察力

📚 知识点讲解

什么是数据可视化？

数据可视化是将数据转换为图形或图表的过程，帮助我们：

快速理解数据模式和趋势
发现数据中的异常值和规律
有效地传达数据洞察
支持数据驱动的决策

💡 小贴士：好的可视化应该简洁清晰，避免过度装饰，让数据自己说话

一、准备可视化数据

1.1 计算衍生指标

为可视化计算关键指标，如总销售额。

# 计算每行的总销售额
df['total_sales'] = df['quantity'] * df['price']

print(df[['product', 'quantity', 'price', 'total_sales']].head())

1.2 数据聚合

按维度聚合数据，准备柱状图或饼图数据。

# 按产品聚合总销售额
product_sales = df.groupby('product')['total_sales'].sum()

print('各产品销售总额:')
print(product_sales.sort_values(ascending=False))

1.3 计算占比

计算各部分占整体的比例，适合饼图展示。

# 计算各地区销售占比
region_sales = df.groupby('region')['total_sales'].sum()
region_percent = region_sales / region_sales.sum() * 100

print('各地区销售占比:')
print(region_percent.round(1))

二、数据排序与筛选

2.1 按指标排序

找出最受欢迎或表现最好的项目。

# 按销量降序排序
product_qty = df.groupby('product')['quantity'].sum()
sorted_products = product_qty.sort_values(ascending=False)

print('产品销量排行:')
print(sorted_products)

2.2 使用 idxmax() 找最大值

快速找到最大值对应的索引。

# 找出销售额最高的产品
df['total_sales'] = df['quantity'] * df['price']
product_sales = df.groupby('product')['total_sales'].sum()

top_product = product_sales.idxmax()
max_sales = product_sales.max()

print(f'销售额最高的产品: {top_product}, 销售额: {max_sales}')

三、创建交叉表

3.1 使用 unstack() 创建矩阵

将分组结果转换为宽格式，适合热力图。

# 创建产品与地区的交叉表
df['total_sales'] = df['quantity'] * df['price']
cross_sales = df.groupby(['product', 'region'])['total_sales'].sum().unstack()

print('产品地区销售矩阵:')
print(cross_sales)

⚠️ 注意：unstack() 将多层索引转换为列，缺失值会显示为 NaN

3.2 计算描述统计

了解数据分布特征。

# 计算价格和数量的描述统计
print('数量统计:')
print(df['quantity'].describe())
print('\n价格统计:')
print(df['price'].describe())

💻 代码实战

在下方代码编辑器中编写并运行完整的数据可视化准备代码：

05-visualization/main.py

# 数据可视化准备实战
# 请在这里编写完整的数据可视化准备代码

# 1. 导入必要的库


# 2. 读取数据


# 3. 计算总销售额


# 4. 按产品汇总销售


# 5. 按地区计算销售占比


# 6. 找出销售额最高的产品


# 7. 创建产品地区交叉表


# 8. 输出分析结果

点击"运行代码"按钮执行

📋 总代码运行框

整合本项目的所有代码，可以一次性运行查看完整结果。

综合代码编辑器

import pandas as pd

df = pd.read_csv('retail_orders.csv')

df['total_sales'] = df['quantity'] * df['price']

print("=== 各产品销售额 ===")
product_sales = df.groupby('product')['total_sales'].sum()
print(product_sales.sort_values(ascending=False))

print("\n=== 各地区销售占比 ===")
region_sales = df.groupby('region')['total_sales'].sum()
region_percent = region_sales / region_sales.sum() * 100
print(region_percent.round(1))

print("\n=== 产品地区交叉表 ===")
cross_sales = df.groupby(['product', 'region'])['total_sales'].sum().unstack()
print(cross_sales)

点击"运行代码"查看输出...

参考答案

import pandas as pd

df = pd.read_csv('retail_orders.csv')

df['total_sales'] = df['quantity'] * df['price']

product_sales = df.groupby('product')['total_sales'].sum()
region_sales = df.groupby('region')['total_sales'].sum()
region_percent = region_sales / region_sales.sum() * 100

cross_sales = df.groupby(['product', 'region'])['total_sales'].sum().unstack()

✏️ 编程练习题（8道）

第1题简单

计算每行的总销售额 (quantity × price)。

你的代码

点击"提交答案"自动评分...

参考答案

df['total_sales'] = df['quantity'] * df['price']
print(df[['product', 'quantity', 'price', 'total_sales']].head())

第2题简单

计算整个数据集的总销售额。

你的代码

点击"提交答案"自动评分...

参考答案

df['total_sales'] = df['quantity'] * df['price']
total = df['total_sales'].sum()
print(f'总销售额: {total}')

第3题简单

找出销售额最高的产品。

你的代码

点击"提交答案"自动评分...

参考答案

df['total_sales'] = df['quantity'] * df['price']
product_sales = df.groupby('product')['total_sales'].sum()
top_product = product_sales.idxmax()
print(f'销售额最高的产品: {top_product}, 销售额: {product_sales.max()}')

第4题中等

计算每个地区的平均单价。

你的代码

点击"提交答案"自动评分...

参考答案

region_avg_price = df.groupby('region')['price'].mean()
print('各地区平均单价：')
print(region_avg_price)

第5题中等

找出销售数量最多的订单。

你的代码

点击"提交答案"自动评分...

参考答案

max_qty_order = df.loc[df['quantity'].idxmax()]
print('销量最高的订单：')
print(max_qty_order[['order_id', 'product', 'quantity', 'price']])

第6题中等

计算各产品的销售数量和平均单价。

你的代码

点击"提交答案"自动评分...

参考答案

product_stats = df.groupby('product').agg({
    'quantity': 'sum',
    'price': 'mean'
})
print('产品统计：')
print(product_stats)

第7题困难

计算每个产品在不同地区的销售占比。

你的代码

点击"提交答案"自动评分...

参考答案

df['total_sales'] = df['quantity'] * df['price']
product_region = df.groupby(['product', 'region'])['total_sales'].sum()
product_total = df.groupby('product')['total_sales'].sum()
percentage = product_region / product_total * 100
print('产品地区销售占比：')
print(percentage)

第8题困难

创建一个汇总表，显示每个产品的总销量、总销售额、平均价格。

你的代码

点击"提交答案"自动评分...

参考答案

df['total_sales'] = df['quantity'] * df['price']
product_summary = df.groupby('product').agg({
    'quantity': 'sum',
    'total_sales': 'sum',
    'price': 'mean'
})
print('产品销售汇总：')
print(product_summary)

📝 复习题

1. 要比较不同类别的数值大小，最适合使用什么图表？

A. 柱状图

B. 散点图

C. 饼图

D. 热力图

2. 显示各部分占整体的比例，使用什么图表最清晰？

A. 柱状图

B. 折线图

C. 饼图

D. 箱线图

3. 在 Pandas 中，.unstack() 方法的作用是？

A. 删除缺失值

B. 将行索引转为列，创建宽格式

C. 排序数据

D. 计算累积和

4. .idxmax() 方法返回什么？

A. 最大值对应的索引

B. 最大值本身

C. 最大值的位置

D. 最大值的计数

5. 要分析两个变量之间的关系，使用什么图表？

A. 饼图

B. 条形图

C. 箱线图

D. 散点图

🎯 测试题

1. 显示数据随时间变化的趋势，使用什么图表最合适？

A. 饼图

B. 折线图

C. 散点图

D. 箱线图

2. 查看数据的分布、中位数、四分位数，使用什么图表？

A. 饼图

B. 直方图

C. 箱线图

D. 折线图

3. df.groupby('col').agg({'a': 'sum', 'b': 'mean'}) 的含义是？

A. 按 col 分组，计算 a 的总和和 b 的均值

B. 按 col 分组，计算 a 和 b 的总和

C. 按 col 分组，计算 a 和 b 的均值

D. 按 col 分组，计算 a 和 b 的总和和均值

4. 哪一种是数据可视化的最佳实践？

A. 使用尽可能多的颜色

B. 使用3D效果让图表更炫酷

C. 保持简洁，清晰传达数据

D. 尽量添加装饰元素

5. 在准备可视化数据时，最重要的是？

A. 数据格式花哨

B. 数据聚合正确，适合图表类型

C. 数据越多越好

D. 数据中包含所有细节