Resenha: Why P Value Are Not a Useful Measure of Evidence in Statistical Significance Testing

André Faro

O texto versa sobre o uso inadvertido da medida do p-valor nas pesquisas científicas, em particular na Psicologia, destacando importantes recomendações para uma análise criteriosa acerca da validade quanto ao uso e a interpretação dos resultados dos estudos. Segundo os autores, parece existir no ambiente acadêmico a cultura do P-Valor, sob a qual as pesquisas científicas seguem preconizando a busca primordial pela significância estatística através da refutação da hipótese nula (H0).
Na área da Psicologia, muitas pesquisas enfatizam o teste de hipóteses e a verificação de significância estatística entre duas ou mais variáveis. Com efeito, os produtos destas pesquisas têm contribuído marcantemente para a evolução desta ciência, apesar de induzir o entendimento de que o amplo uso é equiparável ao expansivo domínio e compreensão da aplicabilidade adequada do P-valor. Ledo engano, posto que vários estudiosos tendem a acreditar erroneamente que: 1. Os resultados se dão por chance de re-ocorrência; 2. Seus valores, por serem significativos, são objetivamente replicáveis; 3. Ao refutar-se a hipótese nula (H0), se aceita automaticamente a hipótese alternativa (H1) e esta, conseqüentemente, é verdadeira; 4. Seus resultados são importantes e refletem a dinâmica factual das variáveis; 5. Por possuir um P-valor menor do que o erro do tipo I (a), seus achados são obviamente generalizáveis para a população da qual a amostra foi retirada.
Partindo destas primeiras observações, Hubbard e Lindsay (2008), autores do presente artigo, desenvolveram esta crítica para apontar equívocos no uso do construto denominado P-valor, investigando problemas associados com sua aplicação nos estudos da Psicologia, além de sugerir outros parâmetros estatísticos para a confirmação (ou não) das hipóteses que são delineadas para as pesquisa científicas.

O critério do P-Valor
A principal suposição do estabelecimento do P-valor é que os dados observados são diferentes do que se esperava enquanto distribuição (H1: A1 ? A2 ou seja, A1 > A2 ou A1 < A2), sendo, a partir daí, calculada a probabilidade do quanto estes são discrepantes do pressuposto de igualdade na variabilidade dos dados, a chamada hipótese nula (H0: A1 = A2). O valor de p, portanto, é a probabilidade do resultado da pesquisa, através do teste estatístico, ser efetivamente maior ou menor que o esperado para a hipótese nula.
Por evidência indutiva, foram criados pontos de corte na distribuição normal de Gauss para identificar a margem de não-confirmação da hipótese nula. Tradicionalmente utiliza-se o valor de p<0,05 e, na maior probabilidade de refutação contra H0, p<0,01 e p<0,001. Tais valores referem-se, consecutivamente, a 95%, 99,9% e 99,999% de evidência de que H0 não é plausível ou aceitável. Entretanto, a pergunta feita por Hubbard e Lindsay (2008) sobre as limitações desta medida é: de fato, o p-valor é um parâmetro objetivo e sem ambigüidades para testar hipóteses? Como resposta prévia, é possível afirmar que o valor de p é uma medida que não pode ser considerada como ponto final da conclusão acerca das hipóteses, posto que devem ser seguidas uma série de precauções para sua aplicabilidade estatística.

Motivos pelos quais o P-Valor é uma Medida de Evidência Inadequada nos Testes de Significância Estatística
O P-Valor exagera a evidência contra a hipótese nula
Por ter sido desenhado inicialmente para trabalhar com hipóteses dicotômicas de apenas um valor (0,1 ou 1,0), o p-valor indica a diferença em relação a um ponto único de nulidade, o que se aplica também quando se trata apenas de um pequeno intervalo de valores. Como ilustração, estabelecendo-se H0: A1 = A2 versus H1: A1 ? A2, seja “A” uma variável qualquer, o resultado de p<0,05 indicará que se rejeita a hipótese nula no caso de “A” ser especificamente o valor proposto em H0.
Como uma forma de melhor representar e prevenir para tal equívoco recomenda-se que A não seja um ponto específico de nulidade, mas sim um intervalo, fato que designa para a hipótese alternativa a condição de também seja um intervalo de valores. Ou seja, H0: |A1 – A2|= e versus H1: |A1 –  A2| > e; devendo o e (erro amostral) ser pequeno, o que indicará que H1 não pode ser atribuído a variação esperada para o valor de H0. Nas condições em que não seja possível estabelecer intervalos para H0, não é recomendado o uso do p-valor sem o devido ajuste nas hipóteses.
A aplicação do valor de p em ambos os tipos de teste de hipóteses (unilateral e bilateral) é outra questão que necessita de ajustes, pois a análise de resultados derivados para testes bilaterais não podem ser arbitrariamente divididos pela lateralidade de H0 e H1. Por exemplo, trabalhando-se com um nível de significância em p<0,05 e aplicando-se um teste bilateral para a análise de uma hipótese unilateral de variáveis quaisquer, obtém-se um valor de p=0,1. Caso considere-se a hipótese bilateral, a nulidade é aceita e não se rejeita H0. Entretanto, ao obter-se o valor de p e dividir-se por 2, testando para uma cauda das mesmas variáveis, encontra-se o valor unilateral de p=0,05. Tais condições criam um espectro de ambigüidade acerca do uso do valor de p, sem haver necessariamente informações suficientes para que sejam feitas inferências acerca do teste de hipóteses. O exagero do p-valor também se trata de situações limítrofes em que a decisão estatística dependerá da subjetividade do pesquisador. Por exemplo, em casos do valor de p=0.05, 0.04 e 0.06, é possível tanto confirmar como negar a significância estatística.
Para evitar outro modo de superestimação do valor de p, é recomendado o uso de diferentes medidas de validade de significância. Tecnicamente o p-valor é estabelecido de acordo com o Erro do Tipo I esperado para o estudo (a), geralmente delimitado em 95% ou 0,05, que é a probabilidade de rejeitar H0 quando esta é verdadeira. A ação que se recomenda para complementar a verificação das hipóteses é testar o Erro do Tipo II (ß), calibrando o valor de p em relação a outros parâmetros. A calibração seria a seguinte, segundo o modelo frequentista de Neyman-Pearson: para a=0,05, ß=0,289 e a=0,001, ß=0,111. Com este ajuste, o p-valor será condicional ao atendimento dos dois modelos, indicando o espaço de rejeição de H0 compatível a própria freqüência relativa da variável.

O P-Valor e o Tamanho da Amostra
O tamanho da amostra influencia drasticamente o resultado do teste de significância. Em amostras grandes, levando-se em consideração a necessidade do cálculo amostral, qualquer efeito de uma variável sobre outra, mesmo que minúsculo, assumirá uma proporção além da realidade dos dados, elevando a probabilidade de encontrarem-se evidências quanto à rejeição da hipótese nula. Tal contradição reside no fato de alguns testes estatísticos de associação serem baseados na relação entre freqüência observada e esperada, esta que amplifica a disparidade da distribuição por caselas (ex. tabela 2×2) quando o tamanho de n está além do que se espera pelo cálculo amostral. Uma das observações sobre este problema foi feito por Hand’s (1998), onde o autor demonstra que o valor de p tende a ser significativo quando em uma amostra qualquer contenha alguns zeros seguindo o ponto decimal, isto em softwares estatísticos.
Há bastantes discussões acerca da validade de se estabelecer um nível de significância para os dados (por exemplo, p<0,05), posto que se a probabilidade é inferida antes da testagem dos dados, a distribuição posterior sempre gera uma maior probabilidade de confirmar-se a hipótese nula. Sobre isso, Lindley (1957) explicita que, para uma amostra aleatória qualquer de tamanho “n”, com distribuição normal, testando-se a diferença entre médias A e B, encontrar-se-á o seguinte dilema:

1.    O valor da média realmente difere entre as condições, sendo estatisticamente significativo ao nível de a% (suponha-se que seja 0,05 e, assim, 5% de probabilidade de cometer o erro do tipo I)
2.    Numa segunda testagem (a posteriori e utilizando os parâmetros do primeiro estudo), a probabilidade de confirmar-se a hipótese nula é de 100-a % (neste caso, 100-5= 95%)

Enquanto que no primeiro achado é factível acreditar que é clara a rejeição da hipótese nula, no segundo estudo é bem mais provável confirmar-se a condição de igualdade das médias, ratificando a hipótese nula. Apesar de fortemente indicar a validade no estudo I, o estudo II vem a contrapor mostrando forte evidência de que o primeiro possa estar equivocado. Desta forma, questiona-se o porquê de utilizar um parâmetro fixo para significância no p-valor, visto que sua probabilidade inverte-se na replicação do estudo e, por conseqüência, exclui da própria dinâmica dos dados.
Segundo Schervish (1996) os p-valores possuem um problema heurístico e, por isso, são logicamente imperfeitos. Se atendessem ao princípio básico da lógica, a noção de oposição entre a hipótese nula e a alternativa seria diretamente relacionada. Ou seja, é possível defender que H0 é a oposição de H1, mas não se pode afirmar o mesmo na direção contrária – H1 sendo o oposto de H0. Isto é explicado pelo fato de que H0 se trata de um ponto de nulidade, enquanto H1 é um contínuo de hipóteses atribuídas ao acaso, exceto o princípio da igualdade. Mesmo em situações de hipóteses unilaterais, H1 é um intervalo esparso de valores que comporão outras hipóteses. Com estes argumentos apresentados até o momento, não se pode defender isoladamente o p-valor como um critério objetivo e racional de medida da significância estatística; ele é influenciado pela subjetividade do pesquisador ao coletar, calcular e interpretar seus resultados.

Uso de Intervalos de Confiança, Tamanho do Efeito e Replicação de Estudos
Como sugestões que procuram sanar tais questões, os autores defendem o uso combinado do p-valor com os critérios dos intervalos de confiança, o cálculo amostral e do tamanho do efeito. Outra sugestão é a replicação dos estudos como uma forma de atestar a validade de resultados obtidos em diferentes amostras de uma mesma população. Com estes procedimentos, a sobreposição de intervalos de confiança geraria estimativas de distribuição mais próximas à variabilidade real da distribuição do fenômeno sob o parâmetro populacional.

Conclusões
Os autores mostram os vários usos inadequados do p-valor, além das interpretações equivocadas que se faz a partir da rejeição da hipótese nula. A pretensão do artigo foi demonstrar a necessidade de repensar as limitações oriundas do uso do valor de p nos critérios de decisão como única fonte de inferência estatística, incentivando, assim, a demolição da cultura do p-valor.

Fonte: Hubbard, R., & Lindsay, R.M. (2008). Why p value are not a useful measure of evidence in statistical significance testing. Theory & Psychology 18(1), 69-88.

Livro publicado: Statistics for the Behavioral Science

Statistics for the Behavioral Science & Studyguide & SPSS Manual
Susan Nolan e Thomas Heinzen
Worth Publishers (2008)

Artigo publicado: Why P Values Are Not a Useful

Título: Why P Values Are Not a Useful Measure of Evidence in Statistical Significance Testing

Autores: Raymond Hubbard e R. Murray Lindsay

Periódico: Theory & Psychology, Vol. 18, No. 1, 69-88 (2008)

Resumo: clique aqui para obter

%d blogueiros gostam disto: