Calculateur de Statistiques

Calculez la moyenne, la médiane, l'écart-type et les quartiles — nettoyez vos données d'abord

Les statistiques descriptives résument un jeu de données avec quelques nombres : le centre (moyenne, médiane), la dispersion (écart-type, IQR) et les extrêmes (min, max). Mais les données du monde réel sont rarement propres — elles contiennent souvent des valeurs manquantes encodées comme -999, N/A ou d'autres codes sentinelles qui fausseraient chaque calcul.

Cet outil charge un jeu de données d'exemple de 30 employés avec Nom, Âge, Salaire et Département — incluant quelques valeurs sentinelles -999 dans la colonne Salaire. Cliquez sur Lier les données pour voir comment ces mauvaises valeurs affectent la moyenne, puis demandez à l'IA de les nettoyer et de recalculer. La différence sera frappante.

Collez votre propre CSV pour calculer des statistiques sur vos données.

Qu'est-ce qu'une valeur sentinelle et pourquoi est-ce un problème ?
Une valeur sentinelle est un nombre utilisé pour indiquer des données manquantes — communément -999, -1 ou 9999. Si vous calculez la moyenne d'une colonne de salaires contenant -999, la moyenne sera complètement fausse. Nettoyez toujours les valeurs sentinelles avant de calculer des statistiques.
Quand utiliser la médiane plutôt que la moyenne ?
Utilisez la médiane quand vos données contiennent des valeurs aberrantes ou sont asymétriques. La médiane est la valeur centrale et n'est pas affectée par les valeurs extrêmes. Pour les salaires, les prix immobiliers ou les données de revenus, la médiane donne presque toujours une meilleure image de la valeur « typique » que la moyenne.
Que m'indique l'écart-type ?
L'écart-type mesure la dispersion des données autour de la moyenne. Dans une loi normale, environ 68 % des valeurs se situent à ±1 écart-type de la moyenne, et 95 % à ±2. Un petit écart-type signifie que les données sont concentrées ; un grand signifie une forte variabilité.
Qu'est-ce que le résumé en cinq chiffres ?
Le résumé en cinq chiffres est : minimum, Q1 (25e percentile), médiane (50e), Q3 (75e) et maximum. Ces cinq valeurs décrivent complètement la dispersion et le centre d'un jeu de données. Elles constituent également les éléments constitutifs d'une boîte à moustaches.