Nesses tempos de pandemia, a busca acelerada por algum medicamento que seja eficaz contra a COVID-19 pode resultar em estudos com metodologias frágeis e conclusões equivocadas. Desde o início da crise, temos visto diversos artigos com essas características surgirem na literatura científica. Fazer uma crítica tecnicamente apropriada às publicações é necessário para que novos estudos clínicos sejam produzidos com melhor qualidade.
Em 19 de outubro, o ministro da Ciência, Tecnologia e Inovações (MCTI), Marcos Pontes, concedeu entrevistas assegurando a eficácia da Nitazoxanida (NTZ) para o tratamento precoce de COVID-19. A situação gerou grande constrangimento na comunidade científica, uma vez que as declarações não foram acompanhadas de dados que as sustentassem e o ministro acabou apresentando um gráfico genérico, copiado de um banco de imagens, para mostrar o suposto resultado. O grupo de pesquisadores que conduziu o trabalho financiado pelo MCTI recebeu um financiamento de aproximadamente 5 milhões de reais para testar a droga. A primeira versão do artigo com os dados do estudo foi publicada em 23 de outubro na plataforma MedRxiv com o título “Early use of nitazoxanide in mild Covid-19 disease: randomized, placebo-controlled trial”.
Em entrevista para a Agência Brasil, o ministro declarou:
“Foram feitos testes clínicos com 1.500 pacientes e os testes demonstraram que, realmente, esse medicamento reduz a carga viral. Esse era o objetivo do teste”
Entretanto, ainda que o estudo tenha recrutado 1.500 pacientes, só conseguiu incluir, de fato, 475.
Além disso, o objetivo principal do estudo não era avaliar o efeito da medicação sobre a carga viral. De acordo com o protocolo registrado em clinicaltrials.gov (NCT04552483), plataforma de registro para ensaios clínicos, o desfecho primário era redução do tempo com febre, tosse e fadiga - sintomas inespecíficos e mal definidos. É digno de nota que o registro do protocolo ocorreu somente em meados de setembro, enquanto o estudo já havia iniciado em maio. Após a randomização, os autores excluíram ainda 58 pacientes por “descontinuidade” (41), “eventos adversos” (7) e “hospitalização” (10), resultando em 392 pacientes (194 no grupo NTZ e 198 no grupo controle).
Os fatos acima demonstram que não houve adoção de análise por intention-to-treat, uma das principais limitações do estudo. A análise por intention-to-treat (“intenção de tratar”) representa um cenário mais próximo do mundo real já que, quando utilizada, todos os pacientes, incluindo aqueles que não terminaram o estudo, são contemplados na análise estatística final. Há muitos motivos para um paciente não terminar um estudo, como desistência ou suspensão do uso da medicação por efeitos colaterais, agravamento do estado clínico e até morte. Em outras palavras, a não adoção de intention-to-treat significa que indivíduos foram excluídos de um ou outro grupo (tratamento ou placebo), fugindo da contabilização, prejudicando a eficácia da randomização e enviesando as estatísticas.
Como exemplo, considere um estudo de uma medicação que causa efeitos colaterais importantes. Nesse estudo, poderíamos esperar uma desistência maior de pacientes do grupo da medicação do que do grupo controle. Levanta esta preocupação o fato de que, no grupo da NTZ, seis pacientes foram excluídos por efeitos colaterais importantes, mas apenas um no grupo controle. Se não considerarmos todos os pacientes na análise, a medicação aparentará ser mais benéfica ou menos nociva do que realmente é.
Percebemos que, durante a análise dos dados, ou seja, finalizado o estudo, os pesquisadores excluíram mais 27 pacientes por desvio de protocolo ou por dados faltantes, 12 do grupo tratado com NTZ e 15 do controle. Essa conduta levanta suspeitas se a análise dos dados foi feita realmente de forma cega, representando um outro grande problema e introduzindo maior probabilidade de vieses.
O estudo buscou um tamanho de efeito bastante modesto: um aumento de 11% em dias sem sintomas após o tratamento com NTZ. Isso equivaleria à uma redução do período sintomático de 5 dias para 4 dias e meio. Algo de relevância clínica absolutamente questionável.
Outro problema importante é que o desfecho primário é reportado de formas diferentes em locais distintos. No protocolo, como mencionamos, o desfecho primário foi registrado como redução da duração da febre, tosse e fadiga. No entanto, no artigo, o desfecho é apresentado apenas como completa resolução desses sintomas após cinco dias de terapia. Já no material suplementar, o desfecho primário é novamente descrito como redução da duração dos sintomas.
Acrescente-se a isso o fato de que no formulário autoaplicado de seguimento dos sintomas (isto é, os próprios voluntários avaliaram, subjetivamente, a si mesmos) estão presentes sintomas como dor de garganta, dor de cabeça, dores musculares, desconforto respiratório e diarreia. Presumivelmente, estes sintomas medidos pelo próprio paciente, numa escala de 1 a 5, devem ter sido o substrato para definir um dos desfechos primários, a fadiga. No entanto, os autores não deixam claros os critérios para definir como essas escalas, juntas, poderiam constituir um escore de fadiga.
Apesar dessas inconsistências, o estudo não foi capaz de encontrar significância para resolução dos sintomas (febre, tosse e fadiga) após cinco dias de tratamento com NTZ. Apesar de não fazer parte do desfecho primário, os autores reportaram que, dentro do subgrupo de pacientes que não melhoraram após os cinco dias de tratamento, 38/49 pacientes no grupo NTZ e 26/46 no grupo controle tiveram completa resolução dos sintomas (p-valor = 0,048). Essa avaliação foi feita após uma semana, por telefone.
O cálculo do “p-valor” é uma avaliação estatística usada para determinar a compatibilidade dos resultados de um estudo com a hipótese de que os efeitos encontrados pelos pesquisadores, na verdade, não são reais. Tradicionalmente, aceita-se um p-valor igual ou menor que 0,05 como significativo – isto é, como sinal de que a incompatibilidade é grande o suficiente para permitir supor que os efeitos são, de fato, reais. Cada vez que se calcula um p-valor, há uma chance de o resultado voltar “significativo” por puro acaso. Por isso, as melhores práticas pedem que estudos que aplicam o teste de p-valor várias vezes a uma mesma base de dados tomem medidas para levar isso em consideração, aplicando as chamadas “correções para comparações múltiplas”. Essas correções não foram usadas neste estudo.
Convém destacar ainda que um p-valor igual a 0,05 atribuiria uma incerteza intolerável à inferência feita pelo estudo. Nesse cenário, não há diferença entre 0,048, 0,05 ou 0,052. Se os ajustes necessários para as múltiplas comparações fossem aplicados, ou apenas um paciente tivesse apresentado um resultado diferente, esse resultado (ressalte-se, desfecho secundário, não planejado previamente, e num subgrupo) perderia sua significância estatística.
Grande ênfase foi colocada na suposta redução da carga viral, um dos 24 desfechos secundários. Essa ênfase foi baseada na análise do seu valor absoluto ao final do estudo (mediana 3,63 no grupo NTZ e 4,13 no grupo placebo), porém sem considerar o valor inicial também diferente entre os grupos e menor no grupo NTZ (mediana 7,06 no grupo NTZ e 7,49 no grupo placebo). Em outras palavras, a evolução da carga viral não foi diferente entre os grupos.
Esses resultados demonstram precisamente o oposto do que foi noticiado.
Curiosamente, no tópico que resume os achados do manuscrito, os autores declaram “Nitazoxanida não acelera a resolução dos sintomas após 5 dias de terapia”. Com essa mensagem, teriam concluído o estudo de maneira adequada. Entretanto, fica implícito o desejo de que o estudo concorde com as declarações sobre a eficácia da medicação proferidas pelo ministro Marcos Pontes, quando os autores completam o trecho com “[...] contudo, reduziu significativamente a carga viral sem sérios eventos adversos”. Além disso, durante a apresentação do artigo (não disponível ainda no canal oficial do MCTI no YouTube), foi enfatizada a redução dos sintomas após sete dias, conforme mostra a Figura abaixo. Evidencia-se, então, uma tentativa forçada de positivar um estudo negativo por meio da análise de desfechos secundários. em um subgrupo.
Apesar de ser um estudo randomizado e controlado, suas falhas não são incomuns. O que surpreende é o grande investimento realizado por parte do Ministério da Ciência, Tecnologia e Inovações. Infelizmente, parece-nos que temos um Ministério, que deveria ser cientificamente responsável, adotando consistentemente a postura de tomar decisões importantes durante uma crise sanitária sem basear-se em evidências.
Alison Chaves, doutor em microbiologia e imunologia pela UNIFESP
Felipe Nogueira, doutor em ciências médicas pela UERJ. Divulgador da ciência com artigos publicados na Skeptical Inquirer e Skeptic
Bruno Robalinho, cardiologista clínico e intervencionista, doutorando em cardiologia pela USP/InCor-UFPB
Josikwylkson Costa Brito, estudante do quinto ano de medicina e editor do Universo Racionalista.
Davi Solla, Neurocirurgião e Doutorando pela USP
Guilherme Magnavita, residente de Clínica Médica pela USP e mestre em Métodos Quantitativos em Saúde Pública pela Harvard School of Public Health