相關性熱圖

一眼看出所有配對相關性——紅色表示正相關,藍色表示負相關

相關性熱圖是一個矩陣,每個格子顯示兩個數值欄之間的 Pearson r。顏色使規律立即顯現: 紅色格子(r 接近 +1)表示兩個變數同向增減;藍色格子 (r 接近 -1)表示一個增加時另一個下降;白色/淡色格子(r 接近 0)表示 無線性關係。

此工具載入了包含 30 人的樣本資料集,含年齡、身高、體重、分數 和收入。身高和體重刻意設計為相關(~0.7);年齡和收入中等相關(~0.6);分數獨立於其他變數。 點選連結資料,建立熱圖並查看哪些配對實際上相關。

貼上任何多欄數值 CSV 資料,為您自己的資料建立相關性熱圖。

什麼是相關性熱圖?
相關性熱圖是一個網格,其中行和列代表變數,每個格子顯示該配對之間的 Pearson 相關係數 r。顏色編碼強度和方向:暖色(紅/橙)表示正相關,冷色(藍)表示負相關,中性色(白)表示接近零。
Pearson r 是什麼,其數值代表什麼?
Pearson r 範圍從 -1 到 +1。r = +1 是完美的正線性關係(X 增加時,Y 總是成比例增加)。r = -1 是完美的反向關係。r = 0 表示無線性關係——但非線性關係仍可能存在。粗略指引:|r| > 0.7 = 強,0.4–0.7 = 中等,< 0.4 = 弱。
r = 0 表示什麼——是沒有關係嗎?
r = 0 表示沒有線性關係。兩個變數可以有很強的非線性關係(如 U 形)但仍產生 r ≈ 0。請始終將熱圖與散佈圖配合使用,以檢查 Pearson r 遺漏的曲線或群集。
什麼時候應該使用相關性熱圖?
當您有 3 個或更多數值欄,並想快速找出哪些配對值得進一步研究時,熱圖最為有用。它是探索性資料分析(EDA)的標準首要步驟,在建立迴歸模型之前有助於發現多重共線性和有趣的預測變數。
相關性代表因果關係嗎?
不代表。兩個變數之間的高相關性只表示它們在這個資料集中同向移動——並不意味著其中一個造成了另一個。冰淇淋銷量和曬傷率高度相關(兩者均在夏季達到峰值),但兩者互不造成對方。建立因果關係需要控制實驗或謹慎的因果推斷方法。
為什麼對角線總是 1.0?
相關矩陣的對角線顯示每個變數與自身的相關性,這始終是完美的 +1。這是正常的預期結果——它只是確認矩陣是正確的。