Fazer previsões é difícil, ainda mais sobre o futuro

Artigo
13 dez 2021
Imagem
predict

 

"Olhe, eu sou um escritor brasileiro. A língua portuguesa é o meu material de trabalho. Se eu gasto um adjetivo como 'genial' com o Ximbinha, o que é que eu vou dizer de Beethoven?". Essa fala de Ariano Suassuna pode ser encontrada no YouTube e traduz, de maneira precisa, a má utilização das palavras pela maioria das pessoas. Neste caso, Suassuna estava se referindo a um texto de jornal que exagerava nos elogios ao guitarrista da extinta banda Calypso.

O mau uso das palavras não ocorre somente com adjetivos, mas também com substantivos. Nessa toada, a COVID-19 popularizou alguns "influencers" e os alavancou à posição de "especialistas em análises de dados" – de maneira análoga à banalização do adjetivo 'genial', é importante que não se coloque no mesmo balaio cientistas sérios e fiandeiros de Twitter que geram uma infinidade de previsões inadequadas ou ingênuas.

Esta revista já publicou alguns artigos que faziam previsões a respeito de números da pandemia. Naquela situação, acabei acrescentando críticas a um artigo, as quais reproduzo a seguir:

"O principal problema do artigo é dar ao leitor a impressão de que se tem um modelo matemático de previsão, quando na verdade há apenas o simples ajuste dos dados a uma curva polinomial. Em intervalos de tempo suficientemente curtos, até mesmo uma reta, traçada por dois pontos, tem boa chance de “prever” a posição do terceiro ponto. Isso não se compara a um modelo de equações diferenciais acopladas, como ocorre em modelos epidemiológicos. Como os próprios autores reconhecem, não se pode prever até quando os dados reais acompanharão a curva, já que um polinômio de terceiro grau não é uma curva adequada para extrapolar o comportamento dos dados".

Embora não seja desejável, é compreensível que algumas pessoas se empolguem com previsões que aparentemente "dão certo", mas que não são de fato previsões, mas apenas consequências de se considerar intervalos muito curtos de tempo – nessas situações, até desenhar setinhas para cima e para baixo nas figuras, dando a entender de que se sabe o que está falando, pode funcionar.

Mesmo modelos sofisticados, envolvendo equações diferenciais acopladas, podem retornar alguma previsão, mas com uma incerteza tão grande que não é possível afirmar muita coisa do resultado, conforme pontua um dos fundadores do Observatório COVID-19 Br, Roberto Kraenkel, no Jornal da Unesp: "A ideia de fazer previsões é falha quando se aborda um sistema complexo. E certamente uma epidemia [se desenvolvendo] em uma sociedade é um sistema com muitos elementos não controlados, que não seguem leis naturais, mas sim princípios desconhecidos".

Um artigo recente, publicado na Revista Brasileira de Ensino de Física, de autoria de Otaviano Helene, Tulio Rodrigues e Leandro Mariano, mostra de uma maneira bem simples porque é tão difícil fazer previsões para uma pandemia. Nesse artigo, os autores assumiram uma pandemia fictícia cuja curva de evolução já era perfeitamente conhecida – utilizaram, por conveniência, uma curva normal ou gaussiana.

A vantagem de se utilizar uma curva conhecida é que os parâmetros relevantes para o problema (pandemia) são conhecidos de princípio: número total de casos em um determinado dia, número total de pessoas contaminadas, o instante que ocorre o maior número de casos e a forma como as contaminações aumentam e diminuem.

A curva escolhida tem o dia 82,45 (o dia é fracionário mesmo – oitenta e dois vírgula quarenta e cinco) com o número máximo de infectados e 19.800 é o número total de infectados durante toda a pandemia. Esses parâmetros foram, então, comparados com previsões feitas a partir de curvas ajustadas que levavam em conta somente os dados até os dias 65, 70, 80 e 120. Como essa “pandemia modelo” já “acabou”, é possível confrontar diretamente os resultados previstos com os números reais.

As previsões, considerando somente os dados até os dias 65, 70, 80 e 120, resultam, respectivamente, em:

Dia previsto do máximo de casos: 88 (7); 82,5 (2,5); 83,5 (0,9); 82,46 (0,09)

Total previsto de casos (em milhares): 36 (21); 19,8 (4,2); 21,2 (1,2); 20,00 (0,14)

Os números entre parênteses correspondem às incertezas nos resultados e determinam um intervalo de variação do ajuste. Considerando um único desvio, o número 88 (7), por exemplo, pode variar de 81 a 95.

Como é possível notar, quanto mais pontos são considerados para se fazer a previsão, mais os valores se aproximam dos resultados reais (82,45 para o dia do máximo de casos e 19.800 para o total) e a incerteza nos resultados diminui, ou seja, eles se tornam mais precisos. Ainda de acordo com os autores, um ajuste considerando somente os dados até o dia 60 retorna um total de cerca de 600 mil contaminados, valor a ser comparado com 19,8 mil.

Outra questão observada nas previsões envolve a correlação entre os parâmetros. O coeficiente de correlação entre dois números é um valor que pode variar entre -1 e +1. Uma correlação próxima de -1 entre duas grandezas diz que se uma delas é subestimada, existe uma grande probabilidade da outra ser superestimada e vice-versa. No caso de uma correlação próxima de +1, quando uma delas é superestimada ou subestimada, existe uma grande probabilidade da outra sofrer um erro de avaliação na mesma direção.

Na situação simulada pelo artigo, os coeficientes ajustados apresentam correlações muito próximas de +1. Isso significa que uma superestimação para o dia com maior número de infectados também vai resultar em um exagero maior no número total de infectados.

O modelo do artigo descrito acima é uma simplificação enorme da situação real, que pode ser influenciada por inúmeros fatores: imprecisão nos dados de entrada, aparecimento de novas variantes, número de leitos disponíveis, utilização apropriada de equipamento de proteção etc.

A utilização de modelos teóricos para fazer previsões de sistemas complexos, como é o caso da evolução temporal de uma pandemia, não é uma coisa simples e deve ser praticada com muita parcimônia. Considerando o exemplo hipotético acima, seria algo muito preocupante estabelecer políticas públicas esperando um total de 600 mil contaminados quando o resultado correto ficou em 3% disso.

 

Marcelo Yamashita é professor do Instituto de Física Teórica (IFT) da Unesp e membro do Conselho Editorial da Revista Questão de Ciência

Sua Questão

Envie suas dúvidas, sugestões, críticas, elogios e também perguntas para o "Questionador Questionado" no formulário abaixo:

Ao informar meus dados, eu concordo com a Política de Privacidade.
Digite o texto conforme a imagem

Atendimento à imprensa

11 95142-8998 

11 95142-7899