统计计算器

计算均值、中位数、标准差和四分位数——先清洗您的数据

描述性统计用几个数字概括数据集:中心(均值、中位数)、 离散度(标准差、IQR)和极值(最小值、最大值)。但现实数据很少是干净的—— 它通常包含编码为 -999N/A 或其他哨兵代码的缺失值, 这些值会扭曲每一项计算。

本工具加载了包含姓名、年龄、薪资和部门的 30 名员工样本数据集—— 包括薪资列中的几个 -999 哨兵值。 点击链接数据,查看这些错误值如何影响均值,然后让 AI 清洗数据并重新计算。 差异将非常显著。

粘贴您自己的 CSV,对您的数据计算统计量。

什么是哨兵值,为什么它是问题?
哨兵值是用于表示缺失数据的数字——通常是 -999、-1 或 9999。如果您计算包含 -999 的薪资列的均值,均值将严重失真。始终在运行统计计算前清洗哨兵值。
什么时候应该使用中位数而不是均值?
当数据有异常值或偏斜时,使用中位数。中位数是中间值,不受极端值影响。对于薪资、房价或收入数据,中位数几乎总是比均值更能反映"典型"值。
标准差告诉我什么?
标准差衡量数据围绕均值的离散程度。在正态分布中,约 68% 的值落在均值的 ±1 个标准差内,95% 落在 ±2 个标准差内。标准差小意味着数据紧密聚集;标准差大意味着变异性高。
什么是五数概括?
五数概括是:最小值、Q1(第25百分位数)、中位数(第50百分位数)、Q3(第75百分位数)和最大值。这五个值完整描述了数据集的离散度和中心。它们也是构建箱线图的基础。