統計計算機

平均・中央値・標準偏差・四分位数を計算——まずデータをクリーニング

記述統計はデータセットをいくつかの数値に要約します:中心 (平均、中央値)、散らばり(標準偏差、IQR)、極端な値(最小値、最大値)。しかし 実世界のデータはほとんど清潔ではありません——-999N/A・ その他のセンチネルコードとしてエンコードされた欠損値が含まれ、すべての計算を歪めます。

このツールには名前・年齢・給与・部門を持つ30人の従業員のサンプルデータセットが 読み込まれています——給与列に-999センチネル値が数件含まれています。 データをリンクをクリックして悪い値が平均にどう影響するか確認し、 AIにクリーニングして再計算するよう依頼してください。差は劇的なはずです。

独自のCSVを貼り付けてデータの統計を計算できます。

センチネル値とは何ですか?なぜ問題なのですか?
センチネル値は欠損データを示すために使用される数値です——よく使われるのは-999、-1、9999など。給与列に-999が含まれている場合の平均を計算すると、平均は大きく狂います。統計を実行する前に必ずセンチネル値をクリーニングしてください。
平均ではなく中央値を使うのはいつですか?
データに外れ値があるか歪んでいる場合は中央値を使います。中央値は中間の値であり、極端な値の影響を受けません。給与・家価格・所得データの場合、中央値はほとんど常に「典型的な」値について平均よりも良い描写を与えます。
標準偏差は何を教えてくれますか?
標準偏差はデータが平均の周りにどの程度散らばっているかを測ります。正規分布では約68%の値が平均±1標準偏差以内に、95%が±2以内に収まります。小さな標準偏差はデータが密集していることを意味し、大きいと変動が高いことを意味します。
五数要約とは何ですか?
五数要約は:最小値・Q1(25パーセンタイル)・中央値(50パーセンタイル)・Q3(75パーセンタイル)・最大値です。これら5つの値がデータセットの散らばりと中心を完全に記述します。また箱ひげ図の構成要素でもあります。