Mau uso e incompreensão da estatística alimentam ciência ruim

Questão de Fato
26 mar 2019
Um ábaco, usado para fazer contas

Levante a mão quem nunca ouviu as seguintes frases: "A previsão do tempo errou novamente. Ela disse que iria chover!" ou "Puxa, fazemos aniversário no mesmo dia. Que coincidência!". O que está por trás da indignação expressada na primeira frase, ou do espanto na segunda, é o desconhecimento sobre como funcionam probabilidades e estatísticas.

Na primeira situação, excetuando os casos raros onde a previsão é dada com uma probabilidade de 0 % de chuva, sempre existe uma possibilidade – mesmo que pequena – do evento "chuva" ocorrer: ou seja, a previsão do tempo não errou, quem errou foi você, na interpretação da previsão.

Na segunda frase, a surpresa vem acompanhada de uma análise equivocada da situação. Uma conta não muito complicada mostra que a probabilidade de se encontrar pelo menos duas pessoas que façam aniversário no mesmo dia, em um grupo de 50 pessoas – assumindo que a probabilidade alguém ter nascido num certo dia é a mesma de ter nascido em qualquer outro dos 364 dias do ano – é aproximadamente 97%: nada surpreendente.

O desconhecimento sobre probabilidades, associado a outros fatores, não afeta somente as notícias e as conversas diárias entre amigos. Ele pode ter consequências muito sérias e danosas no meio científico que, depois, acabam criando crendices populares.

A cobrança pela publicação de artigos na academia é algo que tem se intensificado ultimamente: a progressão na carreira de um cientista, muitas vezes até seu emprego, depende da quantidade de artigos que consegue publicar na literatura acadêmica, apresentando os resultados dos estudos que realiza. Há esforços para que as métricas baseadas em quantidade deem lugar para outras que dependam mais da qualidade da ciência produzida, mas a situação ainda está bem longe do ideal.

Publica ou morre!

O peso do famoso lema "publish or perish" (publique ou pereça) atingiu um nível que tem suscitado, inclusive, o aparecimento de revistas denominadas "predatórias": periódicos de péssima qualidade, que cobram para publicar artigos e estão mais interessados na capacidade do autor de pagar as tarifas cobradas do que na qualidade do material apresentado.

Estudos mostram, ainda, que a probabilidade de publicação de trabalhos científicos que apresentam os chamados resultados "positivos" – em que a hipótese inicial proposta pelo autor é comprovada – é maior do que a probabilidade de publicação de resultados "negativos", em que os experimentos desmentem o pressuposto inicial. Isso ocorre a despeito do fato de que os dois tipos de resultado têm interesse científico.

Quando há interesses comerciais envolvidos, a situação torna-se ainda mais complicada. Um estudo mostrando que algum medicamento ou procedimento clínico funciona (e portanto abre oportunidades de mercado) tem maior chance de ser publicado do que aquele que diz que a prática não é melhor do que um placebo.

A análise estatística rigorosa dos dados experimentais deveria aparecer em todos os artigos que descrevem os experimentos que geraram esses dados, mas infelizmente não é isso que a realidade mostra.


Boa parte dos estudos experimentais tem, como o objetivo principal, testar uma hipótese. O primeiro passo, portanto, é formular a hipótese a ser testada, por exemplo: o medicamento “A” é melhor do que um placebo (ou seja, do que uma substância inerte, incapaz de produzir um efeito específico contra a doença que “A” pretende tratar).

Os passos seguintes consistem em fazer o experimento e realizar uma análise estatística que culmina com o famoso teste de hipótese, que compara os efeitos detectados no grupo de voluntários que recebeu “A” com os efeitos percebidos no grupo que recebeu o placebo. É importante notar que não existe nenhum teste de hipótese que nunca erre. Todos, por uma razão puramente probabilística, irão errar em algum momento.

Curvas e probabilidades

Um teste de hipótese consiste, essencialmente, no cálculo de um número que é obtido a partir da hipótese, das médias dos dados dos grupos experimentais e da incerteza envolvida na medição desses dados. Verifica-se, então, se esse número cai em um determinado intervalo, definido por uma curva de probabilidade (o nome técnico é “função densidade de probabilidade”). Dependendo da posição do número nessa curva, o autor do estudo sente-se autorizado a afirmar que o tratamento “A” é provavelmente melhor (ou igual, ou pior) do que o placebo.

Desconsiderando algum problema que tenha ocorrido no planejamento e condução do experimento, o que não é incomum de acontecer, a análise estatística enviesada é uma grande fonte de erros que resultam em conclusões erradas: neste momento, alguns pesquisadores de conduta questionável, ou simplesmente por falta de conhecimento, mudam de profissão e se tornam "cozinheiros de dados".

O viés de confirmação consiste na escolha dos eventos que se adequam à sua conclusão. Ao realizar algum experimento, desde os mais simples em feiras de ciência até os mais complexos, não é incomum ouvirmos o seguinte questionamento: "Deu certo o experimento?" O que muitas vezes está por trás dessa pergunta não é um questionamento acerca do procedimento que foi utilizado na execução da experiência, mas se o resultado foi o esperado.

Mas fazer um experimento é também se deparar com resultados que, por mero acaso, divergem completamente daquilo que esperamos. O que fazer nessa situação? Descarta-se o dado experimental porque ele é estranho? Não.

O descarte deliberado de dados experimentais deslocará a sua conclusão para aquilo que você quer ver: é como retirar cartas de um baralho seguidas vezes, inventando desculpas para ignorar todas as que não são ases, e aí gabar-se de “sempre conseguir um ás”. É desnecessário dizer que se trata de um resultado que não reflete a realidade.

Um dado experimental nunca deve ser desconsiderado, a não ser que exista uma razão muito evidente para isso como, por exemplo, o equipamento responsável por medir o resultado pifar no meio do processo.

 

By Roger McLassus - Own work, CC BY-SA 3.0



Outro problema, muito comum, é a utilização da curva de probabilidade inadequada para o experimento. Em algumas áreas de conhecimento, é usual a utilização do fator-p para dizer se algo funciona ou não. O fator-p é somente a área sob um trecho da curva de probabilidade chamada Normal ou Gaussiana, considerando como marco do ponto inicial ou final dessa área o tal número obtido a partir do valor definido pela hipótese, da média dos dados experimentais e da incerteza.

Tradicionalmente, quando esse fator-p é menor que 0,05 (um valor arbitrário, aceito por razões culturais que têm a ver com a história do desenvolvimento dessas técnicas) o resultado é considerado “estatisticamente significativo” e rejeita-se a chamada “hipótese nula”. No nosso exemplo, a hipótese nula é de que o medicamento “A” não funciona melhor do que placebo.

Digamos que, após realizar nosso experimento com a droga “A”, verificamos que o fator-p é 0,01. Ou seja, rejeitamos a hipótese nula e concluímos que o medicamento é melhor do que placebo.

Diabo nos detalhes

Esse procedimento, no entanto, tem uma série de problemas, principalmente no modo como se dá a interpretação dos resultados. Isso é destaque, por exemplo, numa manifestação a respeito do uso do fator-p feita há alguns anos pela Associação de Estatísticas dos Estados Unidos (ASA) .

Diz o parecer da ASA: “Práticas que reduzem a análise de dados ou a inferência científica a regras mecânicas de ‘faixas luminosas’ (como p<0,05) para justificar conclusões ou alegações científicas podem levar a crenças errôneas e decisões ruins. Uma conclusão não se torna automaticamente ‘verdadeira’ num lado da faixa e ‘falsa’ no outro. Pesquisadores deveriam levar em conta muitos fatores contextuais na hora de derivar inferências científicas, incluindo o projeto do estudo, a qualidade das medições, a evidência externa a respeito do fenômeno sob escrutínio e a validade dos pressupostos subjacentes à análise dos dados”.

Outra questão é que o fator-p não leva em conta o tamanho do efeito produzido: você pode concluir que um medicamento é melhor que um placebo, mas quanto melhor? Talvez não valha a pena usá-lo, por questões de custo ou de efeitos colaterais, por exemplo.
 

Recentemente, um grupo de 800 cientistas publicou artigo sugerindo que o uso do fator-p, como critério único para definir se o resultado de um experimento é ou não cientificamente interessante, deveria ser abandonado. O manifesto, publicado na revista Nature, reafirma muitos dos pontos levantados pela ASA e chama atenção para o impacto negativo na saúde pública quando, por exemplo, os efeitos colaterais de uma droga são desprezados porque parecem “não significativos” de acordo com o critério de fator-p.

Derrapando na curva

Mesmo abstraindo essas questões interpretativas, outro problema que ocorre, com uma grande frequência, é a escolha de uma curva inadequada para calcular o fator-p.

A Gaussiana ou Normal só pode ser utilizada quando nosso experimento produziu um número suficientemente grande de dados (no caso de um teste de medicamento, um número suficientemente grande de voluntários nos grupos de tratamento e de placebo).

Com um número muito pequeno de dados experimentais – digamos, três voluntários no tratamento e três no placebo – a curva correta que deve ser utilizada não é a Normal. A curva que serve ser utilizada é bem diferente, e leva em conta a quantidade reduzida dos dados experimentais, apenas seis. Neste caso, a função correta é a chamada função densidade de probabilidade de t de Student, com cinco graus de liberdade.


Infelizmente, é muito comum ver pesquisadores que usam a Normal mesmo em situações como a descrita acima, seja por desconhecimento de como utilizar a estatística ou com a justificativa do chamado "bandwagon effect", o famigerado "todo mundo faz assim".

Outra maneira de manipulação inconsciente consiste em selecionar subgrupos de dados que satisfazem determinado fator-p, por exemplo subdividindo os grupos experimentais em um sem-número de características (idade, gênero, altura, peso, cor dos olhos, etc.) até encontrar algum onde o fator-p seja satisfeito; esse procedimento não é muito diferente da caça aos ases do baralho descrita acima.


Lembre-se de que é muito mais atraente para o pesquisador mostrar que determinada droga ou procedimento é melhor do que placebo do que dizer que o que foi testado não passa de uma pílula de açúcar.


Análises posteriores da bibliografia disponível sobre determinado assunto, as chamadas meta-análises, podem fazer com que essa tendenciosidade e manipulação de dados desapareça, desde que os resultados enviesados ou distorcidos sejam minoria na literatura. A meta-análise permite destacar o que a maior parte dos estudos sobre um assunto mostra.


Olhar somente a conclusão dos artigos individuais e citá-los exclusivamente porque confirmam as nossas expectativas não é uma prática razoável. Deve-se sempre averiguar a descrição dos procedimentos experimentais e verificar a análise estatística que foi feita. Meta-análises bem conduzidas fazem essa verificação detalhada, e servem para mostrar se algum procedimento clínico de fato funciona melhor do que um placebo ou não, como nos exemplos que se veem aqui, aqui e aqui.  

Marcelo Yamashita é doutor em Física, professor do Instituto de Física Teórica (IFT) da Unesp e membro do Conselho Editorial da Revista Questão de Ciência

Carlos Orsi é jornalista e editor-chefe da Revista Questão de Ciência

Sua Questão

Envie suas dúvidas, sugestões, críticas, elogios e também perguntas para o "Questionador Questionado" no formulário abaixo: