O desafio de medir o sucesso na ciência

Artigo
10 jul 2024
Autor
curva ascendente

 

A revolução científica e tecnológica que mudou a vida de grande parte da Humanidade nos últimos séculos só foi possível graças ao trabalho e dedicação de pessoas e o investimento de governos e instituições. Não fossem nomes como Isaac Newton, James Maxwell, Marie Curie, Albert Einstein e muitos outros, maravilhas da engenharia, da medicina e das comunicações modernas não existiriam, ou ao menos demorariam mais para existirem. Afinal, Newton, por exemplo, não "inventou" a gravidade, mas foram suas descobertas que abriram caminho para desenvolvimentos em diversas áreas - não existem tecnologias "auto-emergentes", nem mesmo a inteligência artificial (pelo menos por enquanto...).

Mas se é fácil apontar a importância e o impacto do trabalho destes e outros cientistas em retrospecto, medir o sucesso científico de acadêmicos e instituições no presente é um desafio ainda sem solução satisfatória. Não que faltem tentativas. Métricas como quantidade de artigos assinados, publicações em periódicos de alto "fator de impacto" ou número de citações são comumente usadas, mas apresentam falhas e estão sujeitas a tão variadas estratégias de manipulação e fraude que são alvo de críticas e estão perdendo a força mesmo entre os acadêmicos. E o mesmo vale para os rankings universitários, onde se juntam medidas como número de docentes com mestrado ou doutorado, o "prestígio" de seus grupos de pesquisa, entre outras.

Problemas que ganham novos contornos com o avanço das tecnologias de comunicação e a crescente digitalização da literatura científica. É o que mostra investigação recente de um grupo de cientistas franceses que revelou uma nova tática para fraudar as métricas envolvendo citações. Publicado recentemente no Journal of the Association for Information Science and Technology (JASIST), o estudo chama atenção para o que os pesquisadores denominaram "referências furtivas", nas quais artigos não mencionados - e até sem relação com o tema das pesquisas publicadas - são inseridos indevidamente nos metadados dos textos, fraudando sistemas automatizados de indexação e referenciamento como o Crossref, e daí se espalhando para plataformas bibliométricas como a Altmetric.

 

Os caminhos da fraude

Fundado em 2000 por uma associação de editoras científicas, o Crossref é um dos principais serviços de registro do sistema DOI (do inglês digital object identifier, "identificador de objeto digital"). Criado dois anos antes pela International DOI Foundation (IDF), este sistema designa um endereço de internet único para documentos ou outros arquivos online, o que permite manter a referência estável e acessível mesmo em caso de mudanças de site. É um dos pilares da transição da literatura científica do analógico para o digital. Assim, por exemplo, se uma editora de periódicos científicos falir ou for comprada por outra e seu endereço na internet desaparecer, os artigos por ela publicados continuarão a poder ser acessados em outros repositórios pelo mesmo endereço DOI gerado quando da publicação original.

A fraude descrita no JASIST foi detectada inicialmente por Guillaume Cabanac, cientista da computação da Universidade de Toulouse, França, ainda em maio de 2022. Ele ficou intrigado com um estudo detectado como "problemático" por um sistema automatizado desenvolvido por ele. O artigo já contabilizava 107 citações, apesar de ter sido publicado apenas dois meses antes, acessado igual quantidade de vezes - incluindo o acesso de Cabanac -, e "baixado" ainda menos: 62 vezes.

Cabanac então chamou atenção para a discrepância no PubPeer, plataforma usada por cientistas e acadêmicos para divulgar e discutir suspeitas de casos de fraudes ou má conduta científicas em estudos que passaram pelos processos de revisão por pares e publicação. Investigações subsequentes com ajuda de colegas revelaram que o problema estava nos metadados de artigos enviados ao Crossref usados pelas plataformas bibliométricas para compor suas estatísticas. Acontece que o Crossref não checa se as referências registradas nos metadados batem com as efetivamente publicadas junto com o artigo, contando com a boa-fé de editoras e autores para sua exatidão, deixando uma brecha a fraude.

"Esta nova forma de manipular a contagem de citações se baseia em manipulações dos metadados que deixam o texto original intocado", descrevem Cabanac e colegas no artigo do JASIST. "Esta manipulação é possível porque o Crossresf confia nas editoras para extrair, relatar e enviar os metadados de suas publicações, incluindo as referências. Esta confiança é estabelecida em seus termos de adesão (ao serviço), que incluem manter os metadados precisos e atualizados. A afiliação ao Crossref pode ser cancelada pelo 'uso fraudulento de identificadores ou metadados'. Efetivamente, porém, como o Crossref não checa a precisão dos metadados fornecidos pelas editoras, isto cria uma 'brecha' no fluxo de informação".

 

O problema das citações

Esta, no entanto, é apenas a mais recente das estratégias de manipulação de citações na literatura científica da era digital já descobertas. Ao longo das últimas décadas, muitas outras foram identificadas. Algumas surpreendentemente simples, que lembram táticas antigas de espionagem como a "tinta invisível". Foi o que fez, em 2010, a dupla de pesquisadores Joeran Beel e Bela Gipp, da Universidade da Califórnia em Berkeley, EUA, e Otto von Guericke University Magdeburg, Alemanha. Usando nada mais que caracteres brancos sobre páginas em branco para incluir "textos invisíveis" em cópias indexadas de estudos no Google Scholar, conseguiram aumentar as citações dos artigos mencionados nestes textos, assim como fazê-los aparecer em buscas por palavras-chave que não continham originalmente.

Outras são mais complexas e trabalhosas, exigindo o envolvimento de um ou mais autores nas manipulações, sejam outros pesquisadores ou os responsáveis pelos próprios periódicos e suas editoras. Exemplos dos primeiros são os chamados "cartéis de citações", em que acadêmicos combinam uns citarem os outros - combinações também observadas entre periódicos -, autocitações excessivas - como o escândalo que atinge o especialista em inteligência artificial Juan Manuel Corchado, recém-eleito reitor da Universidade de Salamanca, Espanha - e "plantações de citações" (“citation plantation” no original em inglês) - nome dado a citações não devidas de certos autores mesmo em estudos não relacionados ao seu trabalho.

Do lado das publicações, foram encontrados casos de más práticas por editores e revisores, como a troca da aceitação dos manuscritos por citações. Também preocupa o chamado "sequestro de periódicos", em que fraudadores imitam ou tomam os sites de publicações atuais ou extintas para roubar seu tráfego ou conseguir informações financeiras de assinantes e cientistas interessados em publicar nelas, e que também podem servir de trampolim para a negociação de citações indevidas.

O problema é tamanho que em 2021 a empresa de consultoria e inteligência em dados Clarivate, que produz uma lista anual de "pesquisadores mais citados", excluiu 300 nomes de pré-candidatos por envolvimento nestes tipos de manipulações. Número que subiu para 550, em 2022.

Mas as implicações da manipulação de citações como métrica para o sucesso acadêmico não se restringem à quantidade em si. Elas também são parte fundamental do chamado "índice h" ("h index", no original em inglês). Proposto em 2005 pelo físico Jorge Hirsch, da Universidade da Califórnia em San Diego, EUA, o índice leva em conta o número de artigos assinados pelo acadêmico publicados na literatura científica e as citações que cada um recebeu separadamente, numa equação em que só os estudos citados mais vezes que o número de publicados na contagem do somatório total contribuem para o cálculo de seu h.

Por exemplo: um cientista que publicou cinco artigos que tiveram, respectivamente, 10, 8, 5, 4 e 3 citações tem um índice h de 4, isto é, quatro artigos com quatro ou mais citações. Fossem 100, 8, 5, 4 e 3 citações, seu índice h permaneceria 4, mas se o número de citações fosse 10, 8, 5, 3 e 3, cairia para 3. Desta forma, acadêmicos em início de carreira, como poucos artigos publicados, terão necessariamente um baixo h, enquanto cientistas com "idade acadêmica" avançada podem alcançar valores expressivos, desde que se mantenham produtivos e relevantes - num exemplo extremo, publicar 100 artigos na carreira, ter 100 mil citações em um deles e só uma nos demais fará com que este pesquisador tenha um índice h de apenas 1; se todos tiverem 100 citações ou mais cada, no entanto, seu índice h atinge 100. Com isso, o índice h supostamente permite ter uma visão mais abrangente da produção científica do acadêmico e seu impacto ao longo do tempo, sendo um bom preditor de reconhecimentos como um Prêmio Nobel ou conquista de bolsas ou altas posições em instituições de prestígio.

O "índice h" também é vulnerável à manipulação, tanto do lado das citações quanto das autorias. Um exemplo é o caso de um cientista fictício conhecido como "Ike Antkare" . Tirando vantagem de brechas em sistemas como o Google Scholar, em 2010 Cyril Labbé, pesquisador da Universidade de Grenoble, França, transformou o inexistente pesquisador em um dos cientistas de maior destaque da ciência moderna.

Usando o Scigen, uma ferramenta de produção automatizada de textos com jargão científico, Labbé criou cerca de uma centena de estudos falsos assinados por Antkare, que depois fez com que fossem indexados pelo Google Scholar. Como todos estes estudos citavam uns aos outros, logo Antkare acumulou um índice h de 94, ficando na 21ª posição entre os cientistas mais citados do Scholarometer do Google Scholar de então, à frente de nomes como Einstein, que na época estava na 36ª, com um índice h de 84.

Dois anos depois, em 2012, um grupo de cientistas espanhóis relatou uma nova versão do experimento de Labbé, mostrando que o sistema do Google Scholar ainda estava vulnerável a manipulações do tipo. Nesta ação, eles conseguiram afetar tanto o índice h de autores quanto o chamado "fator de impacto" dos periódicos, uma outra medida de relevância científica com parâmetros similares aos do índice proposto por Hirsch, só que para publicações.

 

Produtivismo e rankings institucionais

O peso que o número de artigos publicados tem no índice h expõe outro problema assola a academia: o produtivismo. Fruto da cultura do "publicar ou perecer" ("publish or perish"), ele alimenta todo um ecossistema que tem como sintomas de sua inadequação justamente estas e outras estratégias cada vez mais elaboradas para manipular qualquer medida que se busque para mensurar o sucesso acadêmico-científico, tanto no nível dos autores quanto institucional.

Nos últimos anos, não foram raras as revelações de casos de cientistas "hiperprolíficos", aparentemente capazes de produzirem estudos em quantidades "industriais". Exemplos como o do especialista espanhol no setor de carnes José Manuel Lorenzo, que só em 2022 assinou nada menos que 176 artigos científicos, ou cerca de um a cada dois dias, incluindo fins de semana e feriados. Já outro levantamento publicado em 2018 identificou mais de 9 mil pesquisadores que publicaram mais de 5 artigos por dia, ou 72 no total, em pelo menos um ano entre 2000 e 2016. O "fenômeno" também já foi observado no Brasil, especialmente na área de estudos da computação.

Uma das razões para isso também é a falta de padrões para estabelecer a autoria dos artigos. É comum líderes de grupos de pesquisa, laboratórios ou departamentos assinarem conjuntamente estudos de seus subalternos ou orientandos. Supervisão, mentoria ou obtenção de recursos, no entanto, não seriam suficientes para reivindicar autoria segundo o chamado "critério de Vancouver", um dos poucos e mais conhecidos padrões para isso.

Estabelecido em 1988 pelo Comitê Internacional de Editores de Periódicos Médicos (International Committee of Medical Journal Editors), o "critério de Vancouver" determina que os autores devem desempenhar quatro funções para serem considerados como tal: fazer parte do desenho ou da condução do experimento ou do processamento de seus resultados; ajudar a escrever e revisar o manuscrito; aprovar a versão publicada; e se responsabilizar pelo conteúdo do artigo. Os padrões de autoria, no entanto, variam muito entre diferentes campos, mas, como comentam os autores do levantamento, "é provável que algumas vezes a autoria seja negociada, assegurada por coerção ou concedida como um favor".

Mas a pressão para "publicar, publicar, publicar" não afeta apenas a produção pessoal dos cientistas. Diante da falta de melhores critérios para identificar a ciência bem conduzida, relevante e de impacto, instituições de ensino e pesquisa, organizações de fomento e governos se baseiam nestas estatísticas falhas e vulneráveis a manipulações na hora de decidir que grupos ou pesquisadores "premiar" com mais recursos. Elas também são usadas na hora de elaborar rankings institucionais nacionais e internacionais, como os das "melhores universidades".

Foi no encontro entre estes problemas que se viram pesquisadores da "elite" das universidade chinesas. Em entrevistas relatadas em artigo publicado em abril passado no periódico Research Ethics pelo sociólogo Zhang Xinqu e o criminologista Wang Peng, muitos confessaram terem se engajado em más condutas não para ganhos pessoais, mas para simplesmente manterem seus empregos.

Isto porque desde 2015 o governo da China implementou um programa para criar universidades e programas de pesquisa "de nível global", em que as universidades selecionadas no programa receberiam recursos extras, enquanto as que não tivessem bom desempenho seriam excluídas. Para isso, os dirigentes das instituições se voltaram para os ranking universitários internacionais, nos quais a melhoria nas posições depende de seus pesquisadores publicarem mais artigos em periódicos internacionais indexados.

Diante disso, contam Zhang e Wang, muitos pesquisadores buscaram os serviços de verdadeiras fábricas de artigos falsos conhecidas como paper mills (em inglês, “moinhos de papel”), além cometerem desvios como a falsificação de dados e plágio, subornarem editores de periódicos ou a exploração de alunos sem dar o devido crédito a suas colaborações.

Outro caso de manipulação dos rankings internacionais de universidades envolve instituições sauditas e, mais uma vez, pesquisadores espanhóis. No ano passado, o jornal espanhol El País revelou que diversos dos mais proeminentes e prolíficos cientistas do país estavam sendo convencidos a mudar suas afiliações principais - pelo menos no papel - para a Universidade King Saud, na Arábia Saudita, em troca de altos salários, emprestando seu prestígio para elevar a posição da instituição saudita no "Ranking de Shangai", um dos mais acompanhados rankings universitários do mundo, lado a lado com as listas da revista Times Higher Education.

Movimento que segundo o El País foi iniciado ainda em 2016 por figuras como o químico Damià Barceló - que disse ter sido obrigado pelos sauditas a divulgar a afiliação para ter permissão de coletar amostras para um estudo que fazia na Arábia Saudita -, e que em 2023 custou uma suspensão do emprego sem pagamento por 13 anos pela Universidade de Córdoba do também químico Rafael Luque. Em 2019, Luque aceitou a oferta saudita sem informar sua empregadora principal, a Universidade de Córdoba. A "migração" de Luque teria feito a universidade espanhola despencar mais de 150 posições no Ranking de Shangai.

 

Avaliações mais abrangentes

Diante dos problemas e limitações das atuais métricas de avaliação de sucesso acadêmico-científico, pesquisadores da área defendem a adoção de critérios mais abrangentes nestas avaliações. Um dos pontos de partida neste sentido foi dado em 2015 com o que ficou conhecido como o "Manifesto de Leiden". No texto publicado na revista Nature, os autores - Diana Hicks, Paul Wouters, Ludo Waltman, Sarah de Rijcke e Ismael Rafols, todos da área de cienciometria - listam dez princípios que devem guiar este processo, a começar pela subordinação dos dados quantitativos a avaliações qualitativas do trabalho dos cientistas, tanto na hora de decidir por contratações ou concessão de financiamentos quanto ao determinar o mérito individual de um cientista, indo além de métricas como o índice h.

"Ler e julgar o trabalho de um pesquisador é muito mais apropriado do que se basear em um número. Mesmo quando comparando grandes números de pesquisadores, uma abordagem que leve em consideração mais informações sobre o conhecimento, experiência, atividades e influência de do indivíduo é melhor", escrevem.

A avaliação do desempenho também deve levar em conta contextos socioeconômicos e culturais mais amplos, tendo como base as missões assumidas pelas instituições e grupos de pesquisa aos quais o acadêmico está ligado, valorizando mais aspectos aplicados. "Pesquisas que avançam nas fronteiras do conhecimento acadêmico são diferentes das pesquisas focadas em encontrar soluções para os problemas da sociedade", explicam. "A avaliação pode ser mais baseada em méritos relevantes para políticas, indústria ou o público do que em noções de excelência acadêmica".

Neste sentido, eles também defendem uma maior pluralidade de línguas nas avaliações, não focando apenas nas mais prestigiadas publicações, todas em inglês, de forma a proteger e estimular pesquisas que sejam localmente relevantes. "Métricas construídas em uma literatura não inglesa de alta qualidade podem servir para identificar e recompensar a excelência em pesquisas relevantes localmente", justificam.

A lista continua com uma chamada para que a coleta de dados e o processo de análise destas avaliações sejam mais abertos, transparentes e simples, além de permitir que os acadêmicos avaliados confiram estes dados e análises. Outro ponto importante destacado pelos autores é levar em conta as diferentes práticas de publicação e citação de cada campo de estudos. Desta forma, também se deve atentar que os indicadores são sujeitos a ambiguidades e incertezas, como no número de citações, evitando assim deixar-se levar pelo excesso de precisão, como no caso do fator de impacto de publicações, calculados até a terceira casa decimal para evitar empates.

Por fim, o grupo pede que se reconheça que estes indicadores têm efeitos sistêmicos, mudando as formas como os incentivos são estabelecidos, levando a problemas como o produtivismo. Por isso, eles também devem ser escrutinados e atualizados com frequência.

"Seguindo estes dez princípios, a avaliação da pesquisa pode ter um papel importante no desenvolvimento da ciência e suas interações com a sociedade. As métricas de pesquisa podem fornecer informações cruciais que seriam difíceis de obter ou entender apenas com a experiência individual. Mas esta informação quantitativa não pode se metamorfosear de um instrumento para ser o objetivo", concluem. "As melhores decisões são tomadas combinando estatísticas robustas com a sensibilidade para os objetivos da pesquisa sendo avaliada. Tanto evidências quantitativas quanto qualitativas são necessárias; cada uma delas objetivas de sua própria maneira. A tomada de decisões em ciência deve ser baseada em processos de alta qualidade que sejam informados por dados da mais alta qualidade".

 

Cesar Baima é jornalista e editor-assistente da Revista Questão de Ciência

Sua Questão

Envie suas dúvidas, sugestões, críticas, elogios e também perguntas para o "Questionador Questionado" no formulário abaixo:

Ao informar meus dados, eu concordo com a Política de Privacidade.
Digite o texto conforme a imagem

Atendimento à imprensa

11 95142-8998 

11 95142-7899