Calculadora de Valor-p

Calcule significância estatística e visualize regiões de rejeição na distribuição

O valor-p é a probabilidade de obter uma estatística de teste tão extrema quanto a observada — ou mais extrema — assumindo que a hipótese nula é verdadeira. Um valor-p pequeno significa que os dados são improváveis sob H₀, dando-lhe razão para rejeitá-la.

O limiar mais comum é α = 0,05: se p < 0,05, o resultado é chamado de estatisticamente significativo ao nível de confiança de 95%. Campos mais rigorosos usam α = 0,01 ou mesmo 0,001. O valor-p não informa a probabilidade de H₀ ser verdadeira — apenas mede quão surpreendentes são os dados sob essa suposição.

Esta calculadora suporta testes z, testes t, testes qui-quadrado e testes F. Insira sua estatística de teste e graus de liberdade (se necessário) e a IA calculará o valor-p, sombreará a região de rejeição na curva de distribuição e explicará se rejeitar H₀.

O que é um valor-p?
O valor-p é a probabilidade de observar uma estatística de teste tão extrema quanto a calculada a partir da sua amostra, assumindo que a hipótese nula (H₀) é verdadeira. Um valor-p muito pequeno significa que o resultado observado seria muito improvável se H₀ fosse verdadeira — o que é evidência contra H₀. Não é a probabilidade de H₀ ser verdadeira ou falsa.
O que significa p < 0,05?
Quando p < 0,05, há menos de 5% de probabilidade de que o resultado observado tenha ocorrido apenas por acaso aleatório sob H₀. Por convenção, isso é chamado de estatisticamente significativo. No entanto, significância não implica importância prática — uma amostra grande pode tornar um efeito minúsculo estatisticamente significativo. Sempre relate o tamanho do efeito junto com o valor-p.
Qual a diferença entre um teste unilateral e bilateral?
Um teste bilateral verifica uma diferença em qualquer direção (H₁: μ ≠ μ₀) e divide α entre ambas as caudas. Um teste unilateral verifica uma direção específica (H₁: μ > μ₀ ou μ < μ₀) e coloca todo α em uma cauda. Use unilateral apenas quando você tinha uma hipótese direcional antes de coletar dados; caso contrário, use bilateral para evitar inflar artificialmente o poder.
Quais são os níveis de significância comuns?
O nível mais amplamente usado é α = 0,05 (5%). Padrões mais rigorosos incluem α = 0,01 (1%) usado em pesquisa médica, e α = 0,001 (0,1%) usado em física de partículas (o padrão de "cinco sigma"). A escolha de α deve ser feita antes da coleta de dados com base no custo de erros do Tipo I (falsos positivos) na sua área.
Como interpreto a região de rejeição?
A região de rejeição é o conjunto de valores da estatística de teste que levariam a rejeitar H₀. Corresponde aos valores mais extremos sob a distribuição nula — as caudas sombreadas. Se sua estatística de teste observada cair dentro da região de rejeição (equivalentemente, se p < α), você rejeita H₀. A IA plota essa região na distribuição para que você possa ver exatamente onde sua estatística cai.
Qual a diferença entre um valor-p e um intervalo de confiança?
Um valor-p fornece um auxílio de decisão binário: rejeitar ou não rejeitar H₀. Um intervalo de confiança (IC) fornece um intervalo de valores plausíveis para o parâmetro, carregando mais informação. Eles são matematicamente vinculados: um IC de 95% para um parâmetro exclui o valor nulo se e somente se o valor-p bilateral < 0,05. A maioria dos estatísticos recomenda relatar ambos.