상관관계 히트맵

모든 쌍별 상관관계를 한눈에 — 빨간색은 관련, 파란색은 역관계

상관관계 히트맵은 각 셀이 두 수치 열 사이의 피어슨 r을 나타내는 행렬입니다. 색상으로 패턴을 즉시 파악할 수 있습니다: 빨간 셀(r이 +1에 가까움)은 두 변수가 함께 오름을 의미하고, 파란 셀 (r이 -1에 가까움)은 하나가 오를 때 다른 하나가 내림을 의미하며, 흰색/연한 셀 (r이 0에 가까움)은 선형 관계가 없음을 의미합니다.

이 도구는 나이, 키, 몸무게, 점수, 소득을 포함한 30명의 샘플 데이터셋을 불러옵니다. 키와 몸무게는 의도적으로 상관관계가 있으며(~0.7), 나이와 소득은 보통 정도의 상관관계를 가집니다(~0.6). 점수는 나머지와 독립적입니다. 데이터 연결을 클릭하여 히트맵을 생성하고 실제로 관련된 쌍을 확인해 보세요.

다중 열 숫자 CSV를 붙여넣어 직접 데이터의 상관관계 히트맵을 생성해 보세요.

상관관계 히트맵이란 무엇인가요?
상관관계 히트맵은 행과 열이 변수를 나타내고 각 셀이 해당 쌍 사이의 피어슨 상관계수 r을 보여주는 격자입니다. 색상으로 강도와 방향을 표현합니다: 따뜻한 색상(빨간색/주황색)은 양의 상관, 차가운 색상(파란색)은 음의 상관, 중립(흰색)은 0에 가까운 값을 나타냅니다.
피어슨 r이란 무엇이고 그 값은 무엇을 의미하나요?
피어슨 r은 -1에서 +1 범위를 가집니다. r = +1은 완전한 양의 선형 관계(X가 증가하면 Y는 항상 비례하여 증가)입니다. r = -1은 완전한 역관계입니다. r = 0은 선형 관계가 없음을 의미합니다 — 단, 비선형 관계는 여전히 존재할 수 있습니다. 대략적인 기준: |r| > 0.7 = 강함, 0.4–0.7 = 보통, < 0.4 = 약함.
r = 0은 관계가 없다는 의미인가요?
r = 0은 선형 관계가 없다는 의미입니다. 두 변수는 강한 비선형 관계(예: U자형)를 가지면서도 r ≈ 0을 나타낼 수 있습니다. 항상 히트맵과 산점도를 함께 사용하여 피어슨 r이 놓치는 곡선이나 클러스터를 확인하세요.
상관관계 히트맵을 언제 사용해야 하나요?
히트맵은 수치 열이 3개 이상이고 더 조사할 가치가 있는 쌍을 빠르게 찾고 싶을 때 가장 유용합니다. 회귀 모델을 구축하기 전에 탐색적 데이터 분석(EDA)의 표준 첫 번째 단계입니다 — 다중 공선성과 흥미로운 예측 변수를 찾는 데 도움이 됩니다.
상관관계가 인과관계를 의미하나요?
아닙니다. 두 변수 사이의 높은 상관관계는 이 데이터셋에서 함께 움직인다는 것을 의미할 뿐, 하나가 다른 하나를 유발한다는 것을 의미하지 않습니다. 아이스크림 판매와 일광 화상 발생률은 높은 상관관계를 가지지만(둘 다 여름에 최고조에 달함), 어느 것도 다른 것의 원인이 아닙니다. 인과관계를 확립하려면 통제된 실험이 필요합니다.
대각선이 항상 1.0인 이유는 무엇인가요?
상관행렬의 대각선은 각 변수와 자기 자신의 상관관계를 나타내며, 항상 완전한 +1입니다. 이는 정상적이고 예상된 결과입니다 — 행렬이 올바르다는 것을 확인해 줄 뿐입니다.