통계 계산기

평균, 중앙값, 표준편차, 사분위수 계산 — 먼저 데이터를 정리하세요

기술 통계는 데이터셋을 몇 가지 숫자로 요약합니다: 중심(평균, 중앙값), 분산(표준편차, IQR), 극단값(최솟값, 최댓값). 그러나 현실 세계의 데이터는 거의 깨끗하지 않습니다 — 모든 계산을 왜곡하는 -999, N/A 또는 기타 센티넬 코드로 인코딩된 누락 값이 포함되는 경우가 많습니다.

이 도구는 이름, 나이, 급여, 부서가 있는 직원 30명의 샘플 데이터셋을 불러옵니다. 급여 열에 -999 센티넬 값 두 개가 포함되어 있습니다. 데이터 연결을 클릭하면 그 잘못된 값이 평균에 어떤 영향을 미치는지 확인하고, AI에게 정리 후 다시 계산해 달라고 요청하세요. 차이가 극적으로 나타날 것입니다.

직접 CSV를 붙여넣어 데이터의 통계를 계산해 보세요.

센티넬 값이란 무엇이고 왜 문제가 되나요?
센티넬 값은 누락된 데이터를 나타내는 숫자입니다 — 일반적으로 -999, -1, 또는 9999. 급여 열에 -999가 포함된 평균을 계산하면 평균이 완전히 잘못됩니다. 통계를 실행하기 전에 항상 센티넬 값을 정리하세요.
평균 대신 중앙값을 사용해야 할 때는 언제인가요?
데이터에 이상치가 있거나 치우쳐 있을 때 중앙값을 사용하세요. 중앙값은 중간 값이며 극단값의 영향을 받지 않습니다. 급여, 주택 가격, 소득 데이터의 경우 중앙값이 평균보다 거의 항상 "전형적인" 값을 더 잘 나타냅니다.
표준편차는 무엇을 알려주나요?
표준편차는 데이터가 평균 주변에 얼마나 퍼져 있는지를 측정합니다. 정규분포에서 값의 약 68%가 평균의 ±1 표준편차 내에, 95%가 ±2 내에 있습니다. 표준편차가 작으면 데이터가 빽빽이 모여 있고, 크면 변동성이 높습니다.
다섯 수치 요약이란 무엇인가요?
다섯 수치 요약은: 최솟값, Q1(25번째 백분위수), 중앙값(50번째), Q3(75번째), 최댓값입니다. 이 다섯 값은 데이터셋의 분산과 중심을 완전히 설명합니다. 상자 그림의 구성 요소이기도 합니다.