A evidência de que hidroxicloroquina (HCQ), sozinha ou combinação com qualquer coisa que se encontre nas prateleiras de uma farmácia ou na despensa da cozinha, possa ter algum efeito protetor ou curativo contra a COVID-19 continua a ser a mesma que havia em março, quando Donald Trump e Elon Musk começaram a falar do assunto no Twitter, com base em um único estudo francês de péssima qualidade: nenhuma. Zero. Nada. (Estudos ruins, caso alguém esteja curioso, não contam).
Na verdade, depois de todos os estudos de boa qualidade conduzidos desde então, o nível de evidência favorável à HCQ, no contexto do combate à pandemia, é ainda menor do que isso. Hoje, sabemos que o benefício é nulo e que os riscos, embora pequenos, são reais, ainda mais quando se fala em distribuição profilática do fármaco: se o risco de efeitos colaterais for de 0,01% e um milhão de pessoas tomam o medicamento sem necessidade, cem pessoas sofrerão complicações a troco de nada.
De fato, nem mesmo a plausibilidade biológica – isto é, a ciência fundamental que poderia sugerir que HCQ tem algum efeito contra o SARS-CoV-2 – sobreviveu ao escrutínio científico dos últimos meses. Em julho, artigo publicado na Nature mostrou que o fármaco é incapaz de evitar que o vírus ataque células pulmonares humanas.
Agora, os parágrafos acima podem soar meio desconcertantes para quem andou encontrando, nas redes sociais, postagens proclamando aos berros coisas como “*Agora ACABOU DE VEZ! HidroxiCloroquina tem evidência 1A*”. O “1A”, aí, é uma aparente referência ao nível mais alto da hierarquia de evidências em Medicina da Universidade de Oxford. O uso de jargão fora de contexto é uma manobra comum para impressionar os incautos. A ideia é nos induzir a pensar que “aí, olha o cara usando essa expressão técnica com tanta desenvoltura, ele deve saber do que está falando”. Bem, nem sempre. Como neste caso.
A postagem aparentemente tem circulado em diferentes formatos, mas a mais comum oferece links para dois artigos, um ainda em pré-print e o outro, publicado numa revista controlada pelo mesmo grupo de pesquisas francês responsável pelo estudo realmente muito ruim que desencadeou toda a mania da HCQ. Um desses estudos, o pré-print, se apresenta como “metanálise”. O outro, o publicado, como “revisão sistemática”.
O que isso quer dizer? Uma “metanálise” é um procedimento matemático que permite combinar os resultados estatísticos de vários estudos, extraindo uma conclusão comum. Uma “revisão sistemática” é uma análise crítica da literatura científica sobre um assunto, também em busca de uma conclusão comum. Uma “revisão sistemática com metanálise” é uma revisão sistemática que inclui a metanálise das estatísticas.
E, de fato, revisões sistemáticas e metanálises (R/M) bem conduzidas, baseadas em estudos clínicos controlados e randomizados de boa qualidade, são o nível mais alto de evidência científica em Medicina para testes de medicamentos. O problema é que muita gente – seja por excesso de entusiasmo, ignorância ou má-fé – acha que “metanálise” é uma espécie de caixinha mágica, que não importa o que você coloca lá, ou de que modo, o resultado será a verdade científica. Nas palavras do filósofo Robert Todd Carroll (1945-2016), “um ganso que come lixo e bota ovos de ouro”.
Isso simplesmente não é verdade: em 1997, por exemplo, uma metanálise de 186 experimentos realizados entre 1882 e 1939, para determinar se pessoas são capazes de adivinhar qual a próxima carta que sairá do baralho, mostrou resultado fortemente positivo. Metanálise confirma que seres humanos são capazes de ler mentes e adivinhar o futuro! Se fosse válido, esse achado deveria ter revolucionado a ciência. Mas não revolucionou. Por quê? Entre outros motivos, quando se avalia a qualidade dos estudos individuais envolvidos, a confiabilidade e a validade de cada um, o que resta é muito pouco.
Enfim, as palavras “revisão sistemática” e “metanálise” podem evocar o brilho dourado da boa evidência científica, mas para determinar se são mesmo medalhas olímpicas ou não passam de moedinhas de chocolate vagabundo, embrulhadas em papel laminado, é preciso ver o que têm por dentro. Há pelo menos três grandes defeitos fundamentais que podem invalidar uma R/M:
Agregar lixo
Metanálises não são gansos dos ovos de ouro. Se os estudos que entram são inválidos, o resultado será inválido. Não há prestidigitação estatística que conserte isso.
Efeito gaveta
Cientistas têm dificuldades em publicar estudos com resultados negativos. Isso pode acontecer por preconceito dos periódicos científicos, que acham conclusões negativas desinteressantes, por pressão dos financiadores, que não querem que as pessoas saibam que seus produtos não funcionam, ou por viés do próprio cientista – que, se estiver apaixonado pela ideia, pode resistir a enviar seu trabalho negativo para publicação, porque quer tentar “só mais uma vez para ver se dá certo”. Isso deixa a literatura científica sobrecarregada de resultados positivos, o que distorce as R/M.
Viés de seleção
Alguém tem de decidir o que entra e o que fica de fora, o que é relevante ou irrelevante, o que tem qualidade e o que não tem para ser levado em conta numa R/M. Esses critérios têm uma margem de escolha subjetiva e podem acabar influenciados pelos interesses e preferências do autor da análise.
E como a tal “*Evidência 1A da HidroxiCloroquina!*” se sai, quando levamos todos esses cuidados em conta? Mal. Muito mal. Mal pra cachorro.
Lixo e acaso
A revisão sistemática, publicada na revista do grupo francês, é um típico agregador de lixo. Professores de Medicina Baseada em Evidências deveriam usá-la como exemplo didático. Tem de tudo lá, até mesmo aquele estudo brasileiro que, de tão ruim, o patrocinador desistiu de publicar, e o infame “Estudo Henry Ford”. Até o material do charlatão Vladimir Zelenko entrou na roda.
Não é que só haja estudos ruins ali: mas eles predominam de tal forma que distorcem por completo o resultado. E os autores tentam distorcer ainda mais a conclusão, ao pegar bons estudos que chegaram a conclusões negativas e dizer que, a despeito disso, tinham “tendência positiva”, que só não ficou mais clara por causa de uma “falta de poder estatístico”.
“Poder estatístico”, assim como a tal “Evidência 1A”, é uma daquelas expressões que se jogam por aí para impressionar os incautos. No caso, refere-se a uma medida da capacidade que um estudo tem de detectar um efeito real de certo tamanho, e depende do número de pessoas na amostra. Se o efeito é dramático – uma cura rápida e completa, como no caso da vitamina C contra escorbuto –, você precisa de bem pouca gente para ter um bom poder. Se o efeito é mais sutil, o número necessário de voluntários aumenta.
Quando começaram a surgir os estudos de boa qualidade mostrando que a HCQ era inútil contra COVID-19 no contexto hospitalar, os idólatras, que até então esbravejavam que ela andava salvando vidas nas UTIs, fingiram que nunca tinham falado nada disso, e que o uso correto era profilático, ou no início dos sintomas.
Quando saíram os melhores estudos mostrando que o uso profilático ou no início dos sintomas era inútil, o culto passou a dizer que esses estudos tinham poder inadequado – o que é o mesmo que dizer que o efeito da HCQ é sutil demais para ser detectado por eles. E esse é o mesmo tipo de gente que, até os estudos serem publicados, basicamente garantia que bastava um curso de HCQ, com os aditivos da vez, para as pessoas começarem a dar saltos triplos mortais com tochas acesas nas mãos.
A fuga rumo aos efeitos muito pequenos, daqueles que só aparecem depois de muito abracadabra estatístico, é uma das marcas da transição de um campo de investigação legítimo rumo à pseudociência e à ciência patológica, como mostra o caso da adivinhação de cartas de baralho, citado acima.
O que nos traz ao segundo artigo com a suposta “*Evidência 1A da HidroxiCloroquina!*”, o pré-print. Que pretende ser uma análise estatística dos resultados de cinco estudos sobre uso precoce/profilático da HCQ, todos com resultado negativo – sendo três já publicados com revisão pelos pares e dois pré-prints – e que, segundo a avaliação dos autores da metanálise, “não têm poder suficiente” para encontrar um efeito real. E que conclui que os cinco artigos, na verdade, provam que a HCQ funciona.
Os autores operam essa alquimia cometendo, entre outros, o terceiro pecado da lista acima, viés de seleção. Cada um dos estudos avaliou uma série de desfechos (tempo no hospital, carga viral, risco de hospitalização, risco de vida, melhora dos sintomas – um deles, até a relação entre o nível de HCQ no sangue e o risco de pegar COVID-19).
Pois bem, de cada estudo, os autores ignoraram os contextos específicos, as advertências e até mesmo as intenções dos autores originais – o que cada estudo havia sido desenhado para medir – e optaram por comparar apenas os índices de mortalidade e hospitalização, quando disponíveis. O pretexto é que buscavam efeitos “duros”, incontestáveis.
Mas, por morte e hospitalização serem exatamente efeitos raros – a COVID-19 tem uma taxa de resolução espontânea de mais de 90% –, são esses os mais vulneráveis à flutuação do acaso, ainda mais quando analisamos intervenções precoces ou profilaxia. Um dos estudos arrolados, o de Skipper et al, diz claramente que, com apenas 0,4% de óbitos na amostra, qualquer tentativa e tirar conclusões desse dado seria “fútil”. Ainda assim, lá está ele.
Apoiando-se num desfecho com um enorme componente aleatório, o que os autores do pré-print fizeram foi o equivalente de ficar olhando para uma mancha de umidade na parede até conseguirem ver lá uma imagem de Nossa Senhora. Isso é sim “*Evidência 1A*” de alguma coisa, sem dúvida. Só que dos vieses de quem a produziu, não da eficácia da HCQ.
Carlos Orsi é jornalista, editor-chefe da Revista Questão de Ciência e coautor do livro "Ciência no Cotidiano" (Editora Contexto)