Calculadora de Estadísticas

Calcula media, mediana, desviación estándar y cuartiles — limpia tus datos primero

Las estadísticas descriptivas resumen un conjunto de datos con unos pocos números: el centro (media, mediana), la dispersión (desviación estándar, RIC) y los extremos (mínimo, máximo). Pero los datos del mundo real rara vez son limpios — a menudo contienen valores faltantes codificados como -999, N/A u otros códigos centinela que distorsionarían cada cálculo.

Esta herramienta carga un conjunto de datos de muestra de 30 empleados con Name, Age, Salary y Department — incluyendo algunos valores centinela -999 en la columna Salary. Haz clic en Vincular Datos para ver cómo esos valores malos afectan a la media, luego pídele a la IA que los limpie y recalcule. La diferencia será dramática.

Pega tu propio CSV para calcular estadísticas con tus datos.

¿Qué es un valor centinela y por qué es un problema?
Un valor centinela es un número usado para indicar datos faltantes — comúnmente -999, -1 o 9999. Si calculas la media de una columna de salarios que incluye -999, la media será completamente incorrecta. Siempre limpia los valores centinela antes de ejecutar estadísticas.
¿Cuándo debo usar la mediana en lugar de la media?
Usa la mediana cuando tus datos tienen valores atípicos o están sesgados. La mediana es el valor central y no se ve afectada por los valores extremos. Para salarios, precios de casas o datos de ingresos, la mediana casi siempre da una mejor imagen del valor "típico" que la media.
¿Qué me dice la desviación estándar?
La desviación estándar mide qué tan dispersos están los datos alrededor de la media. En una distribución normal, aproximadamente el 68% de los valores caen dentro de ±1 desviación estándar de la media, y el 95% dentro de ±2. Una desviación estándar pequeña significa que los datos se agrupan estrechamente; una grande significa alta variabilidad.
¿Qué es el resumen de cinco números?
El resumen de cinco números es: mínimo, Q1 (percentil 25), mediana (percentil 50), Q3 (percentil 75) y máximo. Estos cinco valores describen completamente la dispersión y el centro de un conjunto de datos. También son los componentes básicos de un diagrama de caja.