IA contra IA na literatura científica

Artigo
6 fev 2025
Autor
Imagem
robô se olha no espelha

 

A "guerra" da inteligência artificial (IA) não se resume à disputa entre o americano ChatGPT e o chinês DeepSeek que ganhou as manchetes nos últimos dias. Outra batalha importante acontece no campo da literatura científica para identificar fraudes e textos produzidos por sistemas deste tipo. De um lado, as chamadas paper mills, verdadeiras fábricas de artigos falsos, tiram proveito das IAs para gerar uma enxurrada de estudos fraudulentos que sobrecarregam o processo de revisão por pares, contaminam a literatura de diversas disciplinas e atrapalham pesquisas legítimas. Do outro, sistemas automatizados buscam por sinais de "anomalias", como frases desconexas, plágio, manipulação de dados e imagens e referências indevidas ou inexistentes, para apontar artigos suspeitos e levar à sua eventual retratação.

Foi o que aconteceu recentemente com o periódico Journal of Intelligent and Fuzzy Systems (JIFS), da editora científica Sage, que tem entre seus principais temas justamente o campo da inteligência artificial, informou o site Retraction Watch. Na segunda ação do tipo em menos de um ano, o JIFS anunciou na semana passada a retratação em massa de 416 estudos após a detecção de um ou mais indicativos de fraude, incluindo "anomalias em citações e referências", "textos estranhos, incoerentes e frases 'torturadas'", "envolvimento não autorizado de terceiras partes no processo de submissão", "autores e revisores não verificáveis" e "comentários de revisão duplicados de diferentes revisores em várias submissões".

“Estes indicativos levantam preocupações sobre a autenticidade das pesquisas e do processo de revisão por pares que embasam estes artigos. A editora lamenta que eles não foram detectados durante os processos de edição e revisão por pares do periódico", diz o anúncio da decisão.

Em agosto do ano passado, o JIFS já havia retratado outra leva de mais de 450 artigos em razão de problemas parecidos após investigação lançada depois que a Sage adquiriu, em novembro de 2023, a IOS Press, antiga editora do periódico, que também teve sua indexação suspensa pela Clarivate. A Clarivate é uma das principais empresas de indexação de artigos e periódicos científicos do mundo, responsável pelo Web of Science.

Parte dos artigos do JIFS retratados em 2024 e agora foram apontados como suspeitos pelo Problematic Paper Screener (PPS). O sistema desenvolvido por Guillaume Cabanac, do Instituto de Pesquisas em Informática da Universidade de Toulouse 3, França, verifica automaticamente um conjunto de nove parâmetros de texto e bibliométricos em artigos publicados na literatura científica em busca de sinais de possíveis fraudes. No caso dos estudos retratados do JIFS no ano passado, o PPS indicou 11 como apresentando "frases torturadas", estruturas de texto fora do padrão comum e indicativas de terem sido escritas por sistemas de IA.

A maioria dos artigos, no entanto, foi apontada como suspeita pela ferramenta "Feet of Clay" ("pés de barro", expressão idiomática que denota algo aparentemente sólido, mas erguido sobre bases duvidosas) do PPS. Este algoritmo emite alertas para artigos que têm entre suas referências outros já retratados, e seu nome é uma referência à consequente fragilidade do embasamento destes estudos. Na investigação de 2024, o Feet of Clay apontou 674 artigos publicados no JIFS como problemáticos, mas nem todos foram retratados então. Agora, com a nova leva de retratações no periódico, este número subiu para 716.

Cabanac disse ao Retraction Watch que as novas retratações "vão alimentar o Feet of Clay ainda mais", e que "será necessário avaliar o efeito dominó" desta decisão. Segundo ele, uma "reação em cadeia" pode acontecer se os artigos agora retratados fizerem parte de um esquema conhecido como "plantações de citações" (“citation plantation” no original em inglês) - nome dado a citações não devidas de certos autores mesmo em estudos não relacionados ao seu trabalho. "Estou curioso para ver que periódicos serão mais 'contaminados'".

 

Corrida armamentista

Como em toda guerra, a luta contra o mau uso da inteligência artificial no universo da ciência é palco de uma corrida armamentista. O Feet of Clay é um exemplo disso, e recentemente outro algoritmo do Problematic Paper Screener revelou um esquema até então desconhecido para fraudar citações, e assim inflar artificialmente algumas das métricas comumente usadas para avaliar a relevância e impacto de pesquisas - e muitas vezes usadas em decisões sobre seu financiamento.

Objeto de estudo publicado por Cabanac em colegas no Journal of the Association for Information Science and Technology (JASIST), o esquema faz uso do que os pesquisadores denominaram de "referências furtivas", nas quais artigos não mencionados - e até sem relação com o tema das pesquisas publicadas - são inseridos indevidamente nos metadados dos textos, fraudando sistemas automatizados de indexação e referenciamento como o Crossref, e daí se espalhando para plataformas bibliométricas como a Altmetric.

A descoberta destas referências furtivas foi possível depois que o PPS apontou um estudo na área das telecomunicações que já contava 107 citações apesar de ter sido publicado apenas dois meses antes e acessado as mesmas 107 vezes - incluindo o acesso de Cabanac -, e "baixado" ainda menos: 62 vezes. Algo como se todas as pessoas que tivessem aberto o hoje retratado estudo no obscuro periódico Wireless Communications and Mobile Computing decidissem citá-lo em seus trabalhos de pesquisa acadêmica, quase a metade delas sequer guardando uma cópia para futura referência.

Estes dois casos se devem principalmente à capacidade do Problematic Paper Screener em minerar e analisar dados e metadados bibliométricos de artigos científicos. O sistema, porém, tem sua origem na detecção de textos produzidos por IA. Neste ponto, atualmente joga a favor dele o fato de que, devido às restrições de direitos autorais, as IAs generativas "generalistas" como o ChatGPT - e mesmo as "especializadas" em textos científicos, como a SCIgen - estão sendo treinadas principalmente com textos antigos, muitos ainda do começo do século 20, deixando para trás pistas de sua passagem, como termos e expressões então populares, mas hoje em desuso.

O PPS também não é a única IA fazendo este trabalho. Também estão em atividade sistemas como o Papermill Alarm, desenvolvido pela empresa britânica Clear Skies, e o Signals, da também britânica Research Signals. Ambos, porém, são serviços pagos. Já pesquisadores da Universidade de Binghamton, anunciaram recentemente a criação do xFakeSci, um algoritmo de aprendizado de máquina que dizem ser capaz de detectar 94% dos artigos problemáticos, uma taxa de sucesso que dizem ser o dobro da dos atuais sistemas do tipo.

À medida que o desempenho dos modelos de linguagem evolui, alimentado pelos próprios usuários, no entanto, mais difícil será detectar seus rastros. E também maior o risco de um crescimento paralisante - e injusto - nos casos de falso positivos, ou seja, estudos legítimos sendo apontados como produzidos por IA. Assim como na disputa entre ChatGPT e DeepSeek, a batalha das inteligências artificiais na literatura científica está apenas começando.

Cesar Baima é jornalista e editor-assistente da Revista Questão de Ciência

Sua Questão

Envie suas dúvidas, sugestões, críticas, elogios e também perguntas para o "Questionador Questionado" no formulário abaixo:

Ao informar meus dados, eu concordo com a Política de Privacidade.
Digite o texto conforme a imagem

Atendimento à imprensa

11 95142-8998 

11 95142-7899