相关性热力图

一眼查看所有两两相关性——红色表示正相关,蓝色表示负相关

相关性热力图是一个矩阵,每个单元格显示两个数值列之间的 皮尔逊相关系数 r。颜色让规律即时凸显: 红色单元格(r 接近 +1)表示两个变量同向变化;蓝色单元格 (r 接近 -1)表示一个上升时另一个下降;白色/浅色单元格(r 接近 0)表示 无线性关系。

本工具加载了包含 Age、Height、Weight、Score 和 Income 的 30 人样本数据集。 Height 与 Weight 有意设置为强相关(约 0.7);Age 与 Income 中度相关(约 0.6); Score 与其余变量独立。点击链接数据,构建热力图并查看哪些变量实际相关。

粘贴任意多列数值 CSV,即可为您的数据构建相关性热力图。

什么是相关性热力图?
相关性热力图是一个网格,行和列代表变量,每个单元格显示该对变量之间的皮尔逊相关系数 r。颜色编码强度和方向:暖色(红/橙)表示正相关,冷色(蓝)表示负相关,中性色(白)表示接近零。
皮尔逊相关系数 r 是什么,其值代表什么?
皮尔逊相关系数 r 取值范围为 -1 到 +1。r = +1 是完美正线性关系(X 增大时,Y 总是按比例增大)。r = -1 是完美负相关。r = 0 表示无线性关系——但非线性关系可能仍然存在。粗略参考:|r| > 0.7 = 强相关,0.4–0.7 = 中度相关,< 0.4 = 弱相关。
r = 0 意味着没有关系吗?
r = 0 仅表示没有线性关系。两个变量可以具有强非线性关系(如 U 形)而皮尔逊相关系数 r ≈ 0。应始终将热力图与散点图结合使用,以检查皮尔逊相关系数遗漏的曲线或聚类。
什么时候应该使用相关性热力图?
当您有 3 列或更多数值列,并想快速找出哪些对值得进一步研究时,热力图最为有用。它是探索性数据分析(EDA)的标准第一步,有助于在建立回归模型前发现多重共线性和有趣的预测变量。
相关性意味着因果关系吗?
不。两个变量之间的高相关性仅意味着它们在该数据集中一同变化——并不意味着一个导致另一个。冰淇淋销量与晒伤率高度相关(两者在夏季都达到峰值),但两者都不是另一个的原因。建立因果关系需要受控实验或严格的因果推断方法。
为什么对角线始终是 1.0?
相关矩阵的对角线显示每个变量与自身的相关性,始终是完美的 +1。这是预期且正常的——它只是确认矩阵是正确的。