"Só enxerguei tão longe porque estava de pé no ombro de gigantes". A frase, geralmente atribuída ao polímata inglês Isaac Newton (1642-1726) - ele mesmo um dos maiores gigantes da história da ciência -, ilustra bem o que podemos ver como uma "cadeia de produção do conhecimento", na qual descobertas anteriores abrem caminho para novos avanços. Na ciência moderna, isso normalmente se dá por meio da publicação de artigos revisados por pares em periódicos científicos e indexados. São as chamadas "referências", fundamentais quando o autor do estudo afirma ou se baseia em algo que não foi ele que fez, observou ou verificou por meio de experimentos, por exemplo.
Até pouco tempo atrás, estas referências eram basicamente "tinta no papel" - jornais, revistas, livros ou outros produtos editoriais, em geral guardados e acessados em bibliotecas. O advento das tecnologias digitais e da internet, porém, mudou radicalmente este cenário. Não só as novas publicações migraram para o digital como as antigas referências começaram a ser digitalizadas e tornadas disponíveis na internet.
Este processo, no entanto, está longe de ser perfeito, como mostra recente estudo publicado (digitalmente) no Journal of Librarianship and Scholarly Communication. Nele, Martin Paul Eve, professor de Literatura, Tecnologia e Editoração do Birkbeck College, Universidade de Londres, analisou a preservação e acessibilidade digital de uma amostra de cerca de 7,5 milhões de artigos referenciados pelo serviço de indexação Crossref por meio de seu sistema DOI (do inglês digital object identifier, "identificador de objeto digital"), que cria um endereço de internet único para documentos ou outros arquivos online, e que permite alterar seu destino final. Assim, por exemplo, se uma editora de periódicos científicos falir ou for comprada por outra e seu endereço na internet desaparecer, os artigos por ela publicados continuarão a poder ser acessados em outros repositórios pelo mesmo endereço DOI gerado quando da publicação original.
O levantamento de Eve revelou que pouco mais de 2 milhões dos artigos da sua amostra - 27,64%, ou mais de um em cada quatro - não tinham cópias digitais nos principais repositórios destes tipos de trabalho. Conhecidos como dark archives ("arquivos escuros", em tradução livre), iniciativas como a CLOCKSS (Controlled Lots of Copies Keeps Stuff Safe), LOCKSS (Lots of Copies Keeps Stuff Safe) e Portico, entre outras, guardam cópias ocultas de materiais acadêmicos que podem ser resgatadas e se tornar novos destinos dos endereços DOI. Ou seja, mais de um quarto da produção científica que usa o sistema da Crossref corre o risco de desaparecer ou ter seu acesso dificultado no caso de problemas com o armazenamento digital original, isto é, tornarem-se "DOI fantasmas".
Os desafios da preservação digital
Isso acontece porque a preservação digital envolve diversas atividades, que vão desde a produção dos documentos digitais em si até a manutenção de sua disponibilidade pelo tempo necessário. Acontece que, no caso da literatura científica, este tempo idealmente é indefinido, dada a necessidade de preservação da cadeia de conhecimento de forma que alegações possam ser checadas e verificadas. Por isso também a necessidade de cópias extras dos trabalhos, com o armazenamento em "arquivos escuros".
Um dos problemas é que não há consenso sobre quem ou que instituições deveriam ser responsáveis pela conservação da literatura científica na era digital. Eve cita alguns estudos que presumem que esta continua a ser função das bibliotecas acadêmicas, assim como já era quando as bibliotecas tinham a guarda física dos trabalhos. De fato, destaca ele, o sistema LOCKSS, por exemplo, opera em rede cujos nodos são bibliotecas acadêmicas.
Por outro lado, argumenta o professor da Universidade de Londres, é do interesse - e, assim, da responsabilidade - das editoras acadêmicas assegurar que "seu" conteúdo seja preservado, assim como o legado de transferência dos direitos autorais do qual depende o modelo de acesso por assinatura, ainda predominante na comunicação científica. Tanto que ele lembra que, pelos termos do contrato de uso do sistema DOI, os integrantes (ou seja, as editoras, entre outros produtores de conteúdo) se comprometem a "fazer os melhores esforços para contratar um arquivo externo ou outro repositório de conteúdo (um 'Arquivo') ... para que este Arquivo preserve o conteúdo do integrante e que, no caso do integrante deixar de armazenar seu conteúdo, fazer com que este conteúdo continue disponível no link permanente".
Literatura em risco
Diante disso, Eve focou sua pesquisa nas políticas e ações de preservação digital dos integrantes do sistema DOI da Crossref. Para tanto, ele criou uma escala centrada na redundância, na qual atingiam o padrão "ouro" os integrantes que tivessem pelo menos 75% de seu conteúdo preservado digitalmente em três ou mais dos principais dark archives; "prata" os que tinham ao menos 50% do conteúdo armazenado em dois ou mais destes "arquivos escuros"; "bronze" para os que tinham ao menos 25% do conteúdo em um ou mais deles; e "não classificados" todos integrantes que não se encaixassem em nenhum destas categorias.
Daí, o pesquisador recolheu as amostras de documentos com DOI dos mais de 20 mil integrantes do sistema da Crossref, chegando a mil documentos no caso dos mais ricos em conteúdo, e proporcionalmente menos nos menores, totalizando 7.438.037 documentos com a identificação. Com ajuda de um sistema automatizado, Eve então buscou por estes documentos em uma seleção dos principais dark archives do planeta, que além dos citados CLOCKSS, LOCKSS e Portico incluiu a brasileira Rede Cariniana, o HathiTrust, o Internet Archive/FATCAT, o Public Knowledge Project PLN e o Scholars Portal.
Cruzando estes dados, Eve verificou que apenas 0,96% dos integrantes do Crossref (204) foram observados preservando mais de 75% de seu conteúdo em três ou mais dos arquivos consultados, atingindo a classificação "ouro". Uma proporção um pouco maior, 8.5% (1.797) preservavam mais de 50% do conteúdo em dois ou mais arquivos, sendo classificados como "prata", e pouco mais da metade - 57.7% (12.257) - atingiram o nível mínimo de preservação, "bronze", com 25% de seu material armazenado em um único arquivo. Quase um terço dos integrantes do Crossref - 32.9% (6.982) -, porém, não mantinha qualquer ação de preservação digital, indo contra as recomendações da Digital Preservation Coalition.
Quanto aos quase 7,5 milhões de documentos em si, o levantamento detectou quase 6 milhões (5.913.102) de "instâncias de preservação", termo que denota o número de cópias armazenadas. Assim, um artigo preservado em três arquivos tem três “instâncias de preservação". Tratando os documentos separadamente, pouco mais de 4,3 milhões dos artigos da amostra (58.38%) tinham pelo menos uma "instância de preservação", isto é, uma cópia guardada em arquivo, deixando 2.056.492 de trabalhos (27.64%) aparentemente fora de esforços de preservação. Os 13,98% restantes foram excluídos da pesquisa por serem muito recentes (publicados este ano), não serem artigos acadêmicos ou por falta de metadados suficientes para terem suas fontes identificadas.
“Toda nossa epistemologia da ciência e pesquisa depende de uma cadeia de notas de rodapé. Se você não pode verificar o que outra pessoa disse em determinado momento, você está apenas tendo uma confiança cega em coisas que não pode ler por si mesmo”, lamentou Eve, que também deixou todos os dados de seu levantamento em um site interativo, em entrevista para a revista Nature.
Para o professor da Universidade de Londres, seus achados também colocam em xeque a cultura acadêmica do "publicar ou perecer" - que bem poderia ser substituída por "publicar e perecer":
"Todos pensam nos ganhos imediatos que terão de ter um artigo publicado em algum lugar, mas o que deveríamos estar pensando mesmo é na sustentabilidade de longo prazo do ecossistema de pesquisas. Depois que você estiver morto já há 100 anos, as pessoas poderão ter acesso nas coisas sobre as quais você trabalhou?".
Cesar Baima é jornalista e editor-assistente da Revista Questão de Ciência