統計計算器

計算均值、中位數、標準差和四分位數——先清理您的資料

描述統計用少數幾個數字概括一個資料集:中心 (均值、中位數)、分散程度(標準差、IQR)和極值(最小值、最大值)。但現實世界的 資料很少是乾淨的——通常包含以 -999N/A 或其他哨兵代碼編碼的缺失值,這些值會扭曲每項計算。

此工具載入了包含 30 名員工的樣本資料集,含姓名、年齡、薪資和 部門——薪資欄中包含幾個 -999 哨兵值。 點選連結資料,查看這些壞值如何影響均值,然後請 AI 清理它們並重新計算。差異將會非常明顯。

貼上您自己的 CSV 來計算您資料的統計量。

什麼是哨兵值,為什麼它是個問題?
哨兵值是用來表示缺失資料的數字——通常是 -999、-1 或 9999。如果您計算包含 -999 的薪資欄的均值,均值將嚴重失真。在進行統計分析之前,務必清理哨兵值。
什麼時候應該使用中位數而非均值?
當您的資料有離群值或偏斜時,使用中位數。中位數是中間值,不受極端值影響。對於薪資、房價或收入資料,中位數幾乎總是比均值更能反映「典型」值。
標準差告訴我什麼?
標準差衡量資料圍繞均值的分散程度。在常態分布中,約 68% 的值落在均值的 ±1 個標準差範圍內,95% 落在 ±2 個標準差範圍內。標準差小表示資料緊密聚集;標準差大表示變異性高。
什麼是五數摘要?
五數摘要是:最小值、Q1(第 25 百分位數)、中位數(第 50 百分位數)、Q3(第 75 百分位數)和最大值。這五個值完整描述了資料集的分散程度和中心。它們也是箱線圖的構成要素。