Em 2005, o médico e cientista de origem grega John Ioannidis publicou um ensaio provocador no prestigiado periódico científico PLOS Medicine. No texto, o professor da Universidade de Stanford, EUA, argumentava que a maior parte dos resultados de pesquisas publicadas em diversos campos da ciência consistia de falsos positivos, fruto de metodologias e tratamentos estatísticos falhos. Problema ligado ao chamado viés de publicação, a tendência de cientistas - e editoras de periódicos científicos - de reportar preferencialmente resultados positivos, e engavetar hipóteses não confirmadas.
Fenômeno que, por sua vez, está intimamente relacionado a outro problema do mundo acadêmico-científico, o produtivismo, em que o sucesso e prestígio - e, consequentemente, os recursos para pesquisas, como financiamento e pessoal - são medidos mais pela quantidade do que pela qualidade dos estudos publicados. Assim, em muitas áreas, como a biomedicina, se priorizaria a obtenção de resultados positivos estatisticamente significativos - indicados por uma métrica conhecida como valor de p (ou p-value) - no lugar da busca pelo real efeito das intervenções estudadas.
Daí surge mais um problema, a manipulação de dados e análises de forma a extrair deles tais resultados significativos, batizada de p-hacking. Tudo isso geraria um ciclo que se autoalimenta, prejudicando - ou mesmo impedindo - a repetição e confirmação dos experimentos e seus achados por grupos independentes, abalando outro alicerce da ciência, a reprodutibilidade.
Ganha corpo então um debate no mundo científico que ficou conhecido como a crise de reprodutibilidade. Preocupados em resgatar a credibilidade e a confiança em alguns dos campos mais afetados pela polêmica, como a psicologia e as ciências sociais, cientistas se unem em iniciativas com o objetivo não só de replicar algumas das descobertas fundamentais de suas áreas (com variadas taxas de sucesso) como verificar a variabilidade de seus efeitos e avaliar a reprodutibilidade da literatura como um todo.
Mas questões básicas do problema apontado por Ioannidis permanecem, indo muito além da reprodutibilidade. Ainda em 2014, o farmacologista britânico David Colquhoun, da University College London, alertava em artigo para o periódico Royal Society Open Science que o foco no valor de p e na premissa de que se ele for igual ou inferior a 0,05 (p≤0,05) a descoberta é estatisticamente significativa e, portanto, "válida" - isto é, há uma chance igual ou menor que 5% de que o resultado do experimento seja um falso positivo - escondia o fato de que muitas destas descobertas são ilusórias.
Usando exemplos de crescente complexidade envolvendo tamanho das amostras, dos efeitos sob investigação e do poder dos testes em detectá-los corretamente, Colquhoun demonstrou que o que chamou de "taxa de falsas descobertas" pode variar de 6% a "desastrosos" 70%, ficando em geral em pelo menos 30%. Ou seja, em cerca de uma a cada três vezes que um cientista diz ter feito um achado "significativo" com base em p≤0,05, na verdade ele estaria "fazendo papel de bobo".
Uma questão de cultura
É neste contexto que se insere estudo publicado recentemente no periódico PLoS One com base em um levantamento de mais de 35 mil artigos publicados em psicologia entre 1975 e 2017. Nele, Andreas Schneck, do Departamento de Sociologia da Universidade Ludwig-Maximilians, em Munique, Alemanha, busca identificar tendências na taxa de falsas descobertas, com base em parâmetros como poder estatístico, viés de publicação e p-hacking das pesquisas.
Segundo Schneck, dependendo do cenário, este número pode ir de irrisórios 0,6% a 88%, proporção ainda mais catastrófica da encontrada por Colquhoun. Em termos gerais, no entanto, o pesquisador alemão estima que a real taxa de falsas descobertas em sua amostra esteja em 17,7%, bem menos do calculado pelo farmacologista britânico e em linha com o cenário mais otimista traçado por Ioannidis, pelo qual um ensaio clínico randomizado bem conduzido, com uma amostragem adequada e 50% de chance de a intervenção testada ser efetiva apresentaria um resultado positivo verdadeiro em cerca de 85% das vezes.
Para Ronaldo Pilati, professor de Psicologia Social da Universidade de Brasília (UnB), a discrepância nos números encontrados por Schneck é mais um sinal do quanto é difícil é estimar o tamanho do problema, e como ele não se resume à questão da reprodutibilidade, envolvendo a própria prática da ciência, suas metodologias e padrões para determinar o que seria uma "descoberta", e a cultura acadêmica do "publicar ou perecer".
"São o que chamamos de práticas questionáveis de pesquisa, um conjunto de condutas implementadas com a finalidade de produzir resultados positivos e aumentar as chances de publicação, e não de conhecer a verdade", diz. "Elas são uma resposta associada às práticas de incentivo no meio acadêmico com uma lógica focada na publicação. Então, de um lado você tem cientistas cometendo p-hacking porque querem publicar, e do outro revistas que querem publicar resultados inovadores e serem citadas, aumentando seu fator de impacto, num ciclo que se alimenta".
Assim, tampouco é um problema recente. Segundo Pilati, estas práticas questionáveis, incluindo o p-hacking e o viés de publicação, são objeto de discussões no campo da psicologia desde pelo menos os anos 1980. Ele dá como exemplo uma que ficou conhecida como "harking", acrônimo cunhado em 1988 para a expressão em inglês hypothesizing after the results are known ("formular a hipótese depois que os resultados são conhecidos"), algo como apresentar a conclusão do experimento como se fosse a hipótese a ser testada.
Contexto em que também se insere a fraude. Outrora um dos mais citados psicólogos do universo da ciência, o alemão de nascimento e britânico de formação Hans Eysenck (1916-1997) publicou mais de mil artigos científicos e 80 livros ao longo de seus 50 anos de carreira, focada principalmente em estudos sobre personalidade e sua relação com diversos aspectos da vida. Recentemente, porém, dezenas de artigos dele no campo da psicologia da saúde - defendendo coisas como "pessoas nervosas ou tristonhas têm mais chance de desenvolver câncer" que caíram como uma luva ao negacionismo da indústria do tabaco - foram retratados ou estão sob suspeita de manipulação de dados.
Pilati lembra que atualmente sua área enfrenta outro escândalo envolvendo cientistas e instituições de renome. No caso, Francesca Gino, professora da Harvard Business School, EUA. Conhecida por seus estudos sobre desonestidade, Gino é acusada de fraudar dados e análises de ao menos quatro artigos de sua autoria. Sob risco de perder sua cátedra, Gino abriu um processo de US$ 25 milhões contra a instituição, enquanto seus colaboradores dentro e fora de Harvard lançaram a iniciativa Many Co-Authors, numa tentativa de defender seu trabalho e divulgar os dados crus dos artigos que assinaram junto com ela.
Por outro lado, estes e outros casos recentes de retratações "no atacado" podem ser vistos como uma amostra de como a comunidade científica está mais atenta a estas práticas questionáveis e no escrutínio pós-publicação. Um sinal disto, destaca Pilati, é que mesmo com todas suas limitações o levantamento de Schneck sugere uma tendência de queda na taxa de falsas descobertas na última década, talvez resultado de uma maior adesão a princípios que ajudam a diminuir este problema, como melhor adequação do tamanho das amostras, do poder e do tratamento estatístico dos experimentos, o registro prévio dos protocolos de pesquisa e desfechos testados e a divulgação dos códigos dos testes estatísticos usados.
Mas só isso não vai resolver o problema, diz o professor da UnB. Segundo ele, também é preciso que os estudos sejam mais robustos não só do ponto de vista das amostras, mas do seu embasamento teórico; incentivo a estudos multicêntricos e colaborativos; sinalização clara das diretrizes editoriais pelos periódicos científicos; e uso das plataformas tecnológicas para disponibilização dos dados crus dos estudos.
"Mas mais importante ainda é uma mudança da cultura acadêmica do 'publicar ou perecer'", afirma. "Precisamos encontrar um equilíbrio entre quantidade e qualidade na produção acadêmica, ainda mais no contexto da ciência de acesso aberto. Tem muita taxa de publicação ainda sendo paga para periódicos predatórios envolvidos em escândalos. A questão da reprodutibilidade não está nem nunca esteve sozinha".
Cesar Baima é jornalista e editor-assistente da Revista Questão de Ciência