学习数据可视化基础,理解数据洞察
使用 retail_orders 数据集,为可视化做准备。
为可视化计算关键指标。
准备柱状图数据:计算各产品的总销售额。
准备饼图数据:比较不同地区的销售。
准备线图数据:识别关键趋势。
准备统计数据,理解数据分布。
准备热力图数据:二维交叉分析。
df['total_sales'] = df['quantity'] * df['price'] print(df[['product', 'quantity', 'price', 'total_sales']].head())
df['total_sales'] = df['quantity'] * df['price'] total = df['total_sales'].sum() print(f'总销售额: {total}')
df['total_sales'] = df['quantity'] * df['price'] product_sales = df.groupby('product')['total_sales'].sum() top_product = product_sales.idxmax() print(f'销售额最高的产品: {top_product}, 销售额: {product_sales.max()}')
region_avg_price = df.groupby('region')['price'].mean() print('各地区平均单价:') print(region_avg_price)
max_qty_order = df.loc[df['quantity'].idxmax()] print('销量最高的订单:') print(max_qty_order[['order_id', 'product', 'quantity', 'price']])
product_stats = df.groupby('product').agg({ 'quantity': 'sum', 'price': 'mean' }) print('产品统计:') print(product_stats)
df['total_sales'] = df['quantity'] * df['price'] product_region = df.groupby(['product', 'region'])['total_sales'].sum() product_total = df.groupby('product')['total_sales'].sum() percentage = product_region / product_total * 100 print('产品地区销售占比:') print(percentage)
df['total_sales'] = df['quantity'] * df['price'] product_summary = df.groupby('product').agg({ 'quantity': 'sum', 'total_sales': 'sum', 'price': 'mean' }) print('产品销售汇总:') print(product_summary)