Calculadora de Valor P

Calcula la significancia estadística y visualiza las regiones de rechazo en la distribución

El valor p es la probabilidad de obtener un estadístico de prueba tan extremo como el observado — o más extremo — suponiendo que la hipótesis nula es verdadera. Un valor p pequeño significa que los datos son poco probables bajo H₀, dando razón para rechazarla.

El umbral más común es α = 0.05: si p < 0.05, el resultado se denomina estadísticamente significativo al nivel de confianza del 95%. Los campos más estrictos usan α = 0.01 o incluso 0.001. El valor p no te indica la probabilidad de que H₀ sea verdadera — solo mide qué tan sorprendentes son los datos bajo esa suposición.

Esta calculadora admite pruebas z, pruebas t, pruebas chi-cuadrado y pruebas F. Ingresa tu estadístico de prueba y los grados de libertad (si es necesario) y la IA calculará el valor p, sombreará la región de rechazo en la curva de distribución y explicará si rechazar H₀.

¿Qué es un valor p?
El valor p es la probabilidad de observar un estadístico de prueba tan extremo como el calculado a partir de tu muestra, suponiendo que la hipótesis nula (H₀) es verdadera. Un valor p muy pequeño significa que el resultado observado sería muy improbable si H₀ fuera verdadera — lo que es evidencia contra H₀. No es la probabilidad de que H₀ sea verdadera o falsa.
¿Qué significa p < 0.05?
Cuando p < 0.05, hay menos de un 5% de probabilidad de que el resultado observado ocurriera solo por azar bajo H₀. Por convención esto se llama estadísticamente significativo. Sin embargo, la significancia no implica importancia práctica — una muestra grande puede hacer que un efecto pequeño sea estadísticamente significativo. Siempre reporta el tamaño del efecto junto al valor p.
¿Cuál es la diferencia entre una prueba unilateral y bilateral?
Una prueba bilateral verifica una diferencia en cualquier dirección (H₁: μ ≠ μ₀) y divide α entre ambas colas. Una prueba unilateral verifica una dirección específica (H₁: μ > μ₀ o μ < μ₀) y coloca todo α en una cola. Usa la unilateral solo cuando tenías una hipótesis direccional antes de recopilar datos; de lo contrario usa bilateral para evitar inflar artificialmente la potencia.
¿Cuáles son los niveles de significancia comunes?
El nivel más ampliamente utilizado es α = 0.05 (5%). Los estándares más estrictos incluyen α = 0.01 (1%) usado en investigación médica, y α = 0.001 (0.1%) usado en física de partículas (el estándar de "cinco sigma"). La elección de α debe hacerse antes de la recopilación de datos, basada en el costo de los errores de Tipo I (falsos positivos) en tu campo.
¿Cómo interpreto la región de rechazo?
La región de rechazo es el conjunto de valores del estadístico de prueba que llevaría a rechazar H₀. Corresponde a los valores más extremos bajo la distribución nula — las colas sombreadas. Si tu estadístico de prueba observado cae dentro de la región de rechazo (equivalentemente, si p < α), rechazas H₀. La IA grafica esta región en la distribución para que puedas ver exactamente dónde cae tu estadístico.
¿Cuál es la diferencia entre un valor p y un intervalo de confianza?
Un valor p da una ayuda de decisión binaria: rechazar o no rechazar H₀. Un intervalo de confianza (IC) da un rango de valores plausibles para el parámetro, llevando más información. Están matemáticamente vinculados: un IC del 95% para un parámetro excluye el valor nulo si y solo si el valor p bilateral < 0.05. La mayoría de los estadísticos recomiendan reportar ambos.