Criado e popularizado há mais de meio século pelo filósofo canadense Herbert Marshall McLuhan (1911-1980), em suas obras A Galáxia de Gutenberg (1962) e Os Meios de Comunicação como Extensão do Homem (1964), o conceito de “Aldeia Global” nunca esteve tão atual como agora. Seja pelo lado bom, como a internet, ou pelo mau, como a pandemia do coronavírus. Agora, pesquisadores do Instituto de Ciências Matemáticas e de Computação (ICMC) da Universidade de São Paulo (USP), em São Carlos, estão se aproveitando de um para entender o outro.
Eles buscam extrair conhecimentos úteis da gigantesca quantidade de informações que circula na internet sobre a pandemia, com o objetivo de melhorar os modelos de previsão do crescimento da doença, como, por exemplo, a curva de contaminação. Para isso, os cientistas da USP usam Inteligência Artificial (IA), por meio de uma ferramenta, chamada Websensors, que eles vêm desenvolvendo desde 2014, inicialmente para outros fins, como projeções de produção no agronegócio.
O pesquisador e doutor em Ciência da Computação, Ricardo Marcondes Marcacini, do ICMC, um dos criadores do Websensors, diz que para explicar o que é esta ferramenta, primeiro é preciso falar sobre Mineração de Dados, uma área grande e tema de pesquisa relevante nas últimas duas décadas em IA. “De forma simples, ela envolve uma série de técnicas e processos que extrai conhecimento a partir de um conjunto de dados”, explica. “Esse conhecimento pode ser representado por padrões extraídos deles, por exemplo.”
O grupo de pesquisa do qual Marcacini faz parte está focado em textos, que são “dados não estruturados, em linguagem natural”, disponíveis em muitos canais ou plataformas. “Podemos analisar desde grandes conjuntos de artigos científicos até notícias, redes sociais e e-mails”, explica. “Dentro do nosso grupo nós ainda temos um interesse muito especial em extrair esses padrões e utilizá-los como informação complementar para apoiar outros modelos e sistemas de IA.”
Da mesma forma que existem vários algoritmos de IA, também há diversas estratégias para Mineração de Dados. “Nós propusemos uma específica, que chamamos de Websensors, que é uma metodologia para mineração de dados e textos”, conta Marcacini. “No entanto, nós focamos em um tipo particular de dados, que são eventos extraídos de notícias. Uma informação é considerada um evento quando possui as componentes ‘o que aconteceu’, ‘quando aconteceu’ e ‘onde aconteceu’.”
Agora, a equipe se dedica a coletar eventos mencionando o novo coronavírus. Segundo o texto de divulgação do trabalho, o objetivo é usar essas informações como conhecimento complementar para ser incorporado em modelos de previsão já existentes. Um exemplo é a previsão da curva de contaminação da pandemia, que pode ser ajustada considerando eventos sobre esse assunto. Além disso, prossegue o texto, esse conhecimento adicional será importante para apoiar especialistas na identificação futura de iniciativas bem e mal sucedidas no combate ao vírus, o que terá grande utilidade nas próximas epidemias.
De acordo com os pesquisadores do ICMC, quando se observa a evolução futura da curva de contaminação de uma doença e se leva em conta apenas dados sobre contágios já ocorridos, tem-se uma visão limitada do problema. Por isso, se for possível enriquecer essa visão, adicionando à previsão informações extraídas de fontes confiáveis, eles acreditam que seja possível incrementar o olhar e, talvez, construir modelos preditivos mais próximos da realidade.
No caso do coronavírus, a equipe do ICMC capta os links da inernet por meio de uma plataforma internacional chamada GDELT. “Ela disponibilizou uma base específica para eventos da COVID-19, que é atualizada a cada 15 minutos.”, diz Marcacini. A seguir, os pesquisadores coletam as notícias que se referem especificamente à doença ou ao coronavírus, desde que sejam provenientes de fontes confiáveis, e fazem um pré-processamento, traduzindo a linguagem humana para uma que as máquinas conseguem compreender.
Dessa forma, a plataforma criada pelo grupo de pesquisadores do ICMC capturou, entre os dias 19 de março e 3 de abril, um total de cerca de 65 mil eventos georreferenciados extraídos de notícias que citam a COVID-19 ou o coronavírus. Paralelamente, eles coletam continuamente o número de contágios, extraídos do Center for Systems Science and Engineering (CSSE) da Johns Hopkins University (JHU), que disponibilizou para a comunidade uma base de dados atualizada diariamente sobre todos os países com ocorrências da doença.
Unindo os eventos aos dados de contaminação oficiais, os cientistas elaboram diariamente um modelo de previsão da curva de contaminação para os sete dias seguintes apresentado em forma de gráficos, que podem ser vistos neste endereço eletrônico http://websensors.net.br/projects/covid19.
O que se pode observar neles é que a curva que leva em conta os eventos é normalmente mais acentuada do que a dos modelos epidemiológicos que consideram apenas os números de contaminação. “Acrescentando os eventos, de fato há um ajuste para cima, com a previsão de mais casos, embora a gente precise fazer a ressalva de que ainda temos poucos dados no Brasil para validar estatisticamente essa análise preditiva”, diz Marcacini.
Em outras palavras, ele diz que a equipe ainda não tem dados suficientes para avaliar, de forma criteriosa, a precisão do modelo. “Em um método científico, nós geralmente temos o filme completo do experimento e podemos simular vários cenários para estimar a precisão de um modelo”, explica. “Nesse caso da COVID-19, nós temos apenas algumas fotografias (e não o filme), ou seja, informações incompletas ainda.”
Por isso, Marcacini é cauteloso e diz que definir qualquer medida de precisão agora não é adequado. “Além disso, nós pretendemos avaliar o quanto os eventos ajudaram a ajustar o modelo base”, justifica. “Nós usamos um simples e intuitivo, baseado nas curvas de contágio de outros países, que temos condições de entender e configurar. De qualquer forma, disponibilizamos diariamente os resultados, com as devidas precauções sobre o uso dos dados para tomada de decisão.”
Evanildo da Silveira é jornalista