Resenha: Why P Value Are Not a Useful Measure of Evidence in Statistical Significance Testing

André Faro

O texto versa sobre o uso inadvertido da medida do p-valor nas pesquisas científicas, em particular na Psicologia, destacando importantes recomendações para uma análise criteriosa acerca da validade quanto ao uso e a interpretação dos resultados dos estudos. Segundo os autores, parece existir no ambiente acadêmico a cultura do P-Valor, sob a qual as pesquisas científicas seguem preconizando a busca primordial pela significância estatística através da refutação da hipótese nula (H0).
Na área da Psicologia, muitas pesquisas enfatizam o teste de hipóteses e a verificação de significância estatística entre duas ou mais variáveis. Com efeito, os produtos destas pesquisas têm contribuído marcantemente para a evolução desta ciência, apesar de induzir o entendimento de que o amplo uso é equiparável ao expansivo domínio e compreensão da aplicabilidade adequada do P-valor. Ledo engano, posto que vários estudiosos tendem a acreditar erroneamente que: 1. Os resultados se dão por chance de re-ocorrência; 2. Seus valores, por serem significativos, são objetivamente replicáveis; 3. Ao refutar-se a hipótese nula (H0), se aceita automaticamente a hipótese alternativa (H1) e esta, conseqüentemente, é verdadeira; 4. Seus resultados são importantes e refletem a dinâmica factual das variáveis; 5. Por possuir um P-valor menor do que o erro do tipo I (a), seus achados são obviamente generalizáveis para a população da qual a amostra foi retirada.
Partindo destas primeiras observações, Hubbard e Lindsay (2008), autores do presente artigo, desenvolveram esta crítica para apontar equívocos no uso do construto denominado P-valor, investigando problemas associados com sua aplicação nos estudos da Psicologia, além de sugerir outros parâmetros estatísticos para a confirmação (ou não) das hipóteses que são delineadas para as pesquisa científicas.

O critério do P-Valor
A principal suposição do estabelecimento do P-valor é que os dados observados são diferentes do que se esperava enquanto distribuição (H1: A1 ? A2 ou seja, A1 > A2 ou A1 < A2), sendo, a partir daí, calculada a probabilidade do quanto estes são discrepantes do pressuposto de igualdade na variabilidade dos dados, a chamada hipótese nula (H0: A1 = A2). O valor de p, portanto, é a probabilidade do resultado da pesquisa, através do teste estatístico, ser efetivamente maior ou menor que o esperado para a hipótese nula.
Por evidência indutiva, foram criados pontos de corte na distribuição normal de Gauss para identificar a margem de não-confirmação da hipótese nula. Tradicionalmente utiliza-se o valor de p<0,05 e, na maior probabilidade de refutação contra H0, p<0,01 e p<0,001. Tais valores referem-se, consecutivamente, a 95%, 99,9% e 99,999% de evidência de que H0 não é plausível ou aceitável. Entretanto, a pergunta feita por Hubbard e Lindsay (2008) sobre as limitações desta medida é: de fato, o p-valor é um parâmetro objetivo e sem ambigüidades para testar hipóteses? Como resposta prévia, é possível afirmar que o valor de p é uma medida que não pode ser considerada como ponto final da conclusão acerca das hipóteses, posto que devem ser seguidas uma série de precauções para sua aplicabilidade estatística.

Motivos pelos quais o P-Valor é uma Medida de Evidência Inadequada nos Testes de Significância Estatística
O P-Valor exagera a evidência contra a hipótese nula
Por ter sido desenhado inicialmente para trabalhar com hipóteses dicotômicas de apenas um valor (0,1 ou 1,0), o p-valor indica a diferença em relação a um ponto único de nulidade, o que se aplica também quando se trata apenas de um pequeno intervalo de valores. Como ilustração, estabelecendo-se H0: A1 = A2 versus H1: A1 ? A2, seja “A” uma variável qualquer, o resultado de p<0,05 indicará que se rejeita a hipótese nula no caso de “A” ser especificamente o valor proposto em H0.
Como uma forma de melhor representar e prevenir para tal equívoco recomenda-se que A não seja um ponto específico de nulidade, mas sim um intervalo, fato que designa para a hipótese alternativa a condição de também seja um intervalo de valores. Ou seja, H0: |A1 – A2|= e versus H1: |A1 –  A2| > e; devendo o e (erro amostral) ser pequeno, o que indicará que H1 não pode ser atribuído a variação esperada para o valor de H0. Nas condições em que não seja possível estabelecer intervalos para H0, não é recomendado o uso do p-valor sem o devido ajuste nas hipóteses.
A aplicação do valor de p em ambos os tipos de teste de hipóteses (unilateral e bilateral) é outra questão que necessita de ajustes, pois a análise de resultados derivados para testes bilaterais não podem ser arbitrariamente divididos pela lateralidade de H0 e H1. Por exemplo, trabalhando-se com um nível de significância em p<0,05 e aplicando-se um teste bilateral para a análise de uma hipótese unilateral de variáveis quaisquer, obtém-se um valor de p=0,1. Caso considere-se a hipótese bilateral, a nulidade é aceita e não se rejeita H0. Entretanto, ao obter-se o valor de p e dividir-se por 2, testando para uma cauda das mesmas variáveis, encontra-se o valor unilateral de p=0,05. Tais condições criam um espectro de ambigüidade acerca do uso do valor de p, sem haver necessariamente informações suficientes para que sejam feitas inferências acerca do teste de hipóteses. O exagero do p-valor também se trata de situações limítrofes em que a decisão estatística dependerá da subjetividade do pesquisador. Por exemplo, em casos do valor de p=0.05, 0.04 e 0.06, é possível tanto confirmar como negar a significância estatística.
Para evitar outro modo de superestimação do valor de p, é recomendado o uso de diferentes medidas de validade de significância. Tecnicamente o p-valor é estabelecido de acordo com o Erro do Tipo I esperado para o estudo (a), geralmente delimitado em 95% ou 0,05, que é a probabilidade de rejeitar H0 quando esta é verdadeira. A ação que se recomenda para complementar a verificação das hipóteses é testar o Erro do Tipo II (ß), calibrando o valor de p em relação a outros parâmetros. A calibração seria a seguinte, segundo o modelo frequentista de Neyman-Pearson: para a=0,05, ß=0,289 e a=0,001, ß=0,111. Com este ajuste, o p-valor será condicional ao atendimento dos dois modelos, indicando o espaço de rejeição de H0 compatível a própria freqüência relativa da variável.

O P-Valor e o Tamanho da Amostra
O tamanho da amostra influencia drasticamente o resultado do teste de significância. Em amostras grandes, levando-se em consideração a necessidade do cálculo amostral, qualquer efeito de uma variável sobre outra, mesmo que minúsculo, assumirá uma proporção além da realidade dos dados, elevando a probabilidade de encontrarem-se evidências quanto à rejeição da hipótese nula. Tal contradição reside no fato de alguns testes estatísticos de associação serem baseados na relação entre freqüência observada e esperada, esta que amplifica a disparidade da distribuição por caselas (ex. tabela 2×2) quando o tamanho de n está além do que se espera pelo cálculo amostral. Uma das observações sobre este problema foi feito por Hand’s (1998), onde o autor demonstra que o valor de p tende a ser significativo quando em uma amostra qualquer contenha alguns zeros seguindo o ponto decimal, isto em softwares estatísticos.
Há bastantes discussões acerca da validade de se estabelecer um nível de significância para os dados (por exemplo, p<0,05), posto que se a probabilidade é inferida antes da testagem dos dados, a distribuição posterior sempre gera uma maior probabilidade de confirmar-se a hipótese nula. Sobre isso, Lindley (1957) explicita que, para uma amostra aleatória qualquer de tamanho “n”, com distribuição normal, testando-se a diferença entre médias A e B, encontrar-se-á o seguinte dilema:

1.    O valor da média realmente difere entre as condições, sendo estatisticamente significativo ao nível de a% (suponha-se que seja 0,05 e, assim, 5% de probabilidade de cometer o erro do tipo I)
2.    Numa segunda testagem (a posteriori e utilizando os parâmetros do primeiro estudo), a probabilidade de confirmar-se a hipótese nula é de 100-a % (neste caso, 100-5= 95%)

Enquanto que no primeiro achado é factível acreditar que é clara a rejeição da hipótese nula, no segundo estudo é bem mais provável confirmar-se a condição de igualdade das médias, ratificando a hipótese nula. Apesar de fortemente indicar a validade no estudo I, o estudo II vem a contrapor mostrando forte evidência de que o primeiro possa estar equivocado. Desta forma, questiona-se o porquê de utilizar um parâmetro fixo para significância no p-valor, visto que sua probabilidade inverte-se na replicação do estudo e, por conseqüência, exclui da própria dinâmica dos dados.
Segundo Schervish (1996) os p-valores possuem um problema heurístico e, por isso, são logicamente imperfeitos. Se atendessem ao princípio básico da lógica, a noção de oposição entre a hipótese nula e a alternativa seria diretamente relacionada. Ou seja, é possível defender que H0 é a oposição de H1, mas não se pode afirmar o mesmo na direção contrária – H1 sendo o oposto de H0. Isto é explicado pelo fato de que H0 se trata de um ponto de nulidade, enquanto H1 é um contínuo de hipóteses atribuídas ao acaso, exceto o princípio da igualdade. Mesmo em situações de hipóteses unilaterais, H1 é um intervalo esparso de valores que comporão outras hipóteses. Com estes argumentos apresentados até o momento, não se pode defender isoladamente o p-valor como um critério objetivo e racional de medida da significância estatística; ele é influenciado pela subjetividade do pesquisador ao coletar, calcular e interpretar seus resultados.

Uso de Intervalos de Confiança, Tamanho do Efeito e Replicação de Estudos
Como sugestões que procuram sanar tais questões, os autores defendem o uso combinado do p-valor com os critérios dos intervalos de confiança, o cálculo amostral e do tamanho do efeito. Outra sugestão é a replicação dos estudos como uma forma de atestar a validade de resultados obtidos em diferentes amostras de uma mesma população. Com estes procedimentos, a sobreposição de intervalos de confiança geraria estimativas de distribuição mais próximas à variabilidade real da distribuição do fenômeno sob o parâmetro populacional.

Conclusões
Os autores mostram os vários usos inadequados do p-valor, além das interpretações equivocadas que se faz a partir da rejeição da hipótese nula. A pretensão do artigo foi demonstrar a necessidade de repensar as limitações oriundas do uso do valor de p nos critérios de decisão como única fonte de inferência estatística, incentivando, assim, a demolição da cultura do p-valor.

Fonte: Hubbard, R., & Lindsay, R.M. (2008). Why p value are not a useful measure of evidence in statistical significance testing. Theory & Psychology 18(1), 69-88.

Resenha: As Novas Formas de Expressão do Preconceito e do Racismo

André Faro

O racismo e o preconceito étnico refletem os contextos sócio-históricos onde acontecem relações sociais pautadas no critério da racialização. Assim, apesar dos marcantes avanços que a sociedade ostenta no que diz respeito às relações intergrupais e a dissolução de seus conflitos, estes dois fenômenos sociais ainda são realidades perenes em nível global; dado que inclui o Brasil neste campo de estudos sobre a manifestação de atitudes hostis, antipáticas ou odiosas contra indivíduos e/ou grupos minoritários.
Frente a este campo em aberto, Lima e Vala (2004) realizaram, alinhados às discussões atuais no campo da Psicologia Social, uma exposição acerca dos novos e complexos mecanismos de expressão da discriminação. Para tanto, são trabalhadas as chamadas novas expressões de racismo e do preconceito, particularmente as teorias do racismo moderno e simbólico na Austrália e EUA; racismo aversivo e ambivalente nos EUA; o preconceito sutil na Europa e o racismo cordial no Brasil.
Inicialmente os autores definem o preconceito e o racismo demonstrando as nuances de cada conceito. Conceitualmente, o preconceito pode ser entendido como uma atitude hostil contra um determinado sujeito, motivada pelo fato do mesmo pertencer a um grupo que é socialmente desvalorizado (Allport, 1954). Já o racismo envolve uma rede mais ampla de aspectos para sua caracterização, logo: é um processo de hierarquização, discriminação e exclusão de um grupo, ou mesmo um componente deste, que é distinto dos demais por possuir alguma marca física externa (real ou imaginária) que, no olhar do outro, associa-se a alguma característica interna. Em síntese, é a busca por uma redução do sociocultural e psicológico às marcas biológicas (Guimarães, 1999), não se processando apenas em nível individual, mas também com um caráter institucional, político e cultural.
Uma constatação histórica que Lima e Vala (2004) apontam, argumentada também por outros autores, é que o preconceito e o racismo mudaram em relação à forma que vinham sendo manifestados nas últimas décadas: minimizaram-se as expressões abertas e, por outro lado, formas veladas e mais discretas de discriminação foram ampliadas no âmbito das relações sociais. Expressões flagrantes, preconceituosas e racistas, são cada vez menos freqüentes numa escala macro-social – mas nem por isso menos nocivas –, sendo paulatinamente substituídas por manifestações sutis e maquiadas nos relacionamentos interpessoais. Por sua vez, estas não geram um impacto explícito por sua expressão, mas possuem o mesmo poder de repercussão em nível micro-social. Para os autores, esta transformação se processou em virtude das pressões sociais derivadas das políticas anti-racistas e democráticas, adequando-se a cada contexto em que se deprecie a diferença no outro.
Os primeiros modelos referidos no texto são as teorias do Racismo Simbólico e o Racismo Moderno, ambas estudadas nos EUA. O primeiro alude à percepção de que os negros vão de encontro aos valores tradicionais da ética protestante americana; leia-se obediência, ética no trabalho, disciplina e sucesso, já o segundo pauta-se na idéia de que os negros estão obtendo um retorno econômico e social maior do que merecem, além de transgredirem os valores dos brancos. Sob a ótica destes dois tipos de racismo, constata-se que o eixo da discriminação concentra-se no sentimento de invasão, apropriação dos direitos e distorção dos valores dos brancos, causando a rejeição da noção de igualdade racial.
Um segundo tipo é o Racismo Aversivo, estudado na realidade americana. Neste construto considera-se que embora as pessoas defendam a plena refutação da prática de racismo aberto, um preceito politicamente correto e adequado aos valores cristãos, apresentam diversos sentimentos de evitação (desconforto, ansiedade, medo, dentre outros) no contato com os negros. Como destacado pelos autores, na ausência de uma imposição social em direção ao igualitarismo, os racistas aversivos discriminam os negros não através de ódio ou hostilidade, mas pela ampla preferência de não-negros em situações em que o contexto justifique, implicitamente, a discriminação.
O Racismo Ambivalente, terceiro a ser discutido, também foi investigado nos EUA. O pressuposto é que as pessoas possuem duas orientações morais em conflito: uma é valorização da igualdade democrática, que induz a reconhecer a discriminação e assim expressar simpatia pelos negros, e a outra é o valor moral do individualismo, que se liga à noção de liberdade pessoal e responsabilidade individual. Dada a vivência destes princípios opostos, as pessoas tendem a oscilar entre os dois extremos, seja com uma exagerada simpatia ou pelo desconforto frente aos negros. Por conseqüência do conflito, há uma radicalização das respostas racistas a fim de minimizar a tensão gerada pela discrepância de pressupostos; este movimento é chamado de “amplificação da resposta” e se efetiva tanto no pólo da extrema bondade perante os negros (ex. piedade), como por considerar os negros como desviantes dos princípios morais (ex. preguiçosos).
O Preconceito Sutil, quarto modelo, é estudado tanto nos EUA em relação aos negros, como na Austrália, em relação aos aborígenes. Este tipo de preconceito faz o oposto da forma mais explícita, o flagrante, no qual a expressão de rejeição ao outro é claramente manisfesta, seja através de repúdio e humilhação ou mesmo agressão física. No Sutil, a viabilização do preconceito assume em três frentes: 1. O indivíduo defende os valores tradicionais de seu grupo, localizando no outro a violação destes; 2. Homogeneíza as características culturais do seu grupo e exagera as diferenças para com o outro; 3. Não expressa, e sente, emoções positivas para com o outro grupo, evitando, assim, reconhecer qualquer aspecto construtivo no diferente.
O Racismo Cordial, quinto e último construto, é pesquisado na realidade brasileira, sendo específico por ser investigado em uma sociedade multirracial. Sua definição baseia-se na discriminação direcionada a sujeitos não-brancos, estando calcado principalmente na falsa civilidade, ou polidez superficial, quando se manifestam comportamentos e atitudes preconceituosas. São formas habitualmente dissimuladas que se apresentam nas relações interpessoais por meio de brincadeiras, piadas ou ditados populares com conteúdo essencialmente discriminatório. Deste modo, o impacto do preconceito é disfarçado em meio a um hábito mascarado e suas conseqüências são voltadas para uma demonstração de contínua exclusão social.
Em geral, Lima e Vala (2004) apontam as novas formas de apresentação do racismo e do preconceito na atualidade, ressaltando o caráter subliminar e dissimulado que ameaça indivíduos e grupos minoritários, por sua vez ainda excluídos e colocados à margem social. No final, os autores demonstram que apesar de todas estas novas conformações teóricas serem alvo de críticas diversas, tais construtos fornecem essenciais subsídios para compreendermos a presença duradoura da discriminação no âmbito das relações interpessoais, com sua plasticidade insidiosa que corrói moralmente a sociedade.

Fonte: Lima, M.E. & Vala, J. (2004). As novas expressões do preconceito de racismo. Estudos de Psicologia (Natal) 9(3), 401-411