本文详细介绍如何在Excel中利用数据透视表完成数据汇总,并基于汇总结果构建散点图矩阵,实现多变量间的相关性可视化分析。通过分步操作指导,帮助数据科学从业者高效完成从数据聚合到图表矩阵布局的全流程。
若您希望在Excel中借助数据透视表对变量间的相关性进行深入分析,并以散点图矩阵的形式直观展示多个变量两两之间的关系,可按照以下流程操作:首先通过透视表完成数据汇总与结构化处理,随后提取其输出结果作为散点图的数据来源,最终构建出清晰的可视化矩阵。
一、创建数据透视表并导出结构化汇总数据
尽管Excel的数据透视表本身不具备直接生成散点图矩阵的功能,但它能高效生成按维度(如时间、地区等)聚合后的数值型汇总表,为后续绘图提供基础。关键是要确保导出的数据为纯数值构成的二维表格,且每列代表一个可用于坐标轴映射的变量。
1. 点击原始数据区域中的任意单元格,进入“插入”选项卡,选择“数据透视表”。
2. 在弹出的对话框中核对数据源范围,选择“新工作表”作为输出位置,点击“确定”。
3. 在右侧“数据透视表字段”面板中,将两个需要分析的数值字段(如“销售额”与“成本”)拖入“值”区域;若需按特定维度分组(如“季度”或“产品类别”),则将其拖入“行”区域。
4. 右键点击透视表中的任意数值单元格,选择“值显示方式”→“无计算”,确保展示的是原始聚合值(如总和或平均值),而非百分比或差值。
5. 选中整个透视表内容(包括行标签和数值),复制后在新工作表中使用“选择性粘贴”→“值”,去除所有格式与公式,仅保留纯净的数值数据。
二、整理适用于散点图矩阵的变量配对数据集
散点图矩阵要求每对变量以独立列的形式排列,且所有列长度一致、不含空值或文本干扰。若导出的数据为长格式(如包含“时间”“指标A”“指标B”三列),需转换为宽格式;若已为宽格式(如“指标A”“指标B”“指标C”并列),则可直接用于绘图。
1. 确认导出数据首行为明确的变量名称(如“营销费用”“访问量”“转化数”)。
2. 移除包含文本、错误值(如#N/A、#VALUE!)或全为空的列;对于数值型缺失值,可先用“查找和替换”将其替换为空,再通过“定位条件”→“空值”批量填充该列的均值。
3. 当变量数量超过三个时,需手动生成所有可能的两两组合(如A-B、A-C、B-C),并将每组数据复制到独立的两列中,建议每组存放于单独的工作表,命名规则为“X_变量A_Y_变量B”。
4. 验证每组两列的数据行数是否完全一致,可在辅助列中使用公式“=COUNTA(对应列)”进行核对。
三、为每一对变量单独创建散点图
由于Excel未提供原生的散点图矩阵功能,必须为每一对变量单独插入散点图,并确保每个图表准确绑定对应的两列数据,防止引用错误。
1. 切换到存放“变量A-变量B”数据的工作表,选中这两列完整区域(含标题),避免包含无关列或空白行。
2. 点击“插入”选项卡,在“图表”组中点击“插入散点图或气泡图”下拉菜单,选择“仅带数据标记的散点图”。
3. 右键点击图表空白区域,选择“选择数据…”,在“图例项(系列)”中点击“编辑”,分别设置“X轴系列值”为第一列数值区域(如=Sheet2!$A$2:$A$21),“Y轴系列值”为第二列数值区域(如=Sheet2!$B$2:$B$21)。
4. 双击横坐标轴,打开“设置坐标轴格式”窗格,取消“自动”选项,手动设定合理的坐标范围(例如X轴从0起始,Y轴根据实际数据分布调整刻度)。
5. 右键点击任意数据点,选择“添加趋势线”,在右侧面板中勾选“显示R²值”和“显示公式”,并将趋势线类型设为“线性”。
四、批量生成并规整排列散点图形成矩阵布局
为构建视觉统一、逻辑清晰的散点图矩阵,需将多个独立图表按行列顺序对齐排布,通常对角线位置可留空或省略自相关图,非对角线则展示不同变量间的关系。所有子图应保持一致的尺寸、字体和坐标样式,便于对比分析。
1. 将首个散点图复制到新工作表左上角,调整其大小为固定尺寸(如宽8厘米、高6厘米)。
2. 依次为其余变量对创建图表,每生成一个即粘贴至同一工作表,并按矩阵结构排列:第二个图置于第一个右侧,第三个图置于第一个下方,第四个图置于第二个下方并与第三个同列,依此类推。
3. 全选所有图表,进入“图表设计”选项卡,点击“切换行/列”,确保所有图表的坐标方向统一(即X轴始终对应左侧变量,Y轴对应上方变量)。
4. 统一修改各图表标题:双击标题框,输入“X: [变量X] vs Y: [变量Y]”,字体大小设为10磅;删除图例,因矩阵中每张图已通过标题明确标识。
5. 按住Ctrl键逐一选中所有图表,右键选择“大小和属性”→“属性”,在“大小”选项卡中取消“锁定纵横比”,确保调整大小时不会发生形变。
五、增强可读性与一致性校验
散点图矩阵的解读依赖于各子图之间的高度一致性。为避免因坐标尺度差异导致误判,需统一关键视觉元素,并通过辅助标注提升分析效率。
1. 记录首张图表中X轴的最小值与最大值,在所有以该变量为X轴的图表中手动同步相同范围;Y轴同理处理。
2. 在各图表的趋势线设置中,保持“截距”为“自动”,仅在业务场景明确要求过原点时,才勾选“设置截距”并输入0。
3. 为突出强相关性,对R²值大于0.7的图表标题添加绿色边框:右键标题→“设置形状格式”→“线条”→“实线”,颜色设为深绿色,线宽1.5磅。
4. 在矩阵左上角插入文本框,注明:“本矩阵中每个单元格展示X轴变量与Y轴变量的散点关系;R²≥0.7表示强线性相关,R²≤0.3表示弱或无线性相关。”
1

