Gestão de Dados Científicos

A gestão de dados científicos envolve coletar, armazenar, gerenciar e compartilhar dados provenientes de pesquisa científica. Para tanto, é essencial que o processo seja devidamente planejado e acompanhado por meio de ferramentas adequadas.

A partir do exemplo do que vem ocorrendo em todo o mundo, órgãos de fomento brasileiros estão tornando obrigatória a apresentação de um Plano de Gestão de Dados (PGD) científicos na submissão de projetos para obtenção de financiamento, assim como a disponibilização pública dos dados gerados nos projetos.

A Pró-Reitoria de Pesquisa (PRP), com apoio operacional da Superintendência de Tecnologia de Informação (STI), está disponibilizando infraestrutura para que os pesquisadores da Universidade elaborem, de forma rápida e prática, seus planos de gestão de dados científicos. Além disso, os pesquisadores que desejarem, poderão disponibilizar seus dados nas plataformas fornecidas pela STI, mediante um termo de aceitação.

A Gestão de Dados científicos é um conjunto de atividades que visa a coletar, armazenar, gerenciar e compartilhar dados provenientes de pesquisa científica.

Uma gestão de dados eficaz possibilita a racionalização de recursos, por meio do reuso e compartilhamento de dados.

Na USP, a gestão de dados científicos tem a finalidade de auxiliar o pesquisador  em relação a:

  • planejamento, organização e segurança
  • documentação e compartilhamento
  • preparação dos conjuntos de dados para depósito
  • preservação dos dados
  • questões relacionadas a direitos autorais, licenciamento e propriedade intelectual.

A gestão de dados científicos visa a atender os princípios conhecidos como FAIR (Findable, Accessible, Interoperable, Reusable), amplamente divulgados nas comunidades científicas em todo o mundo. Esses princípios definem que os dados científicos devem ser localizáveis, acessíveis, interoperáveis e reusáveis. Para atingir cada uma dessas metas, são estabelecidos subprincípios em relação aos dados propriamente ditos e aos metadados (descrição dos dados)

(Fonte: https://www.nature.com/articles/sdata201618, com tradução livre abaixo):

  • Para ser Localizável (Findable):

F1. (meta) dados são relacionados a um identificador global único e permanente

F2. dados são descritos por metadados ricos (definido por R1 abaixo)

F3. Metadado inclui claramente e explicitamente o identificador dos dados que ele descreve

F4. (meta)dados são registrados ou indexados em um recurso passível de pesquisa

  • Para ser Acessível (Accessible):

A1. (meta)dados são recuperáveis pelo seu identificador utilizando um protocolo de comunicação padronizado

A1.1 o protocolo é aberto, livre e implementado universalmente

A1.2 quando necessário, o protocolo permite um procedimento de autenticação e autorização

A2. Metadados são acessíveis, mesmo quando os dados não estão mais disponíveis

  • Para ser Interoperáveis (Interoperable)

I1 (meta)dados utilizam uma linguagem formal, acessível, compartilhada e amplamente aplicável para a representação do conhecimento

I2 (meta)dados utilizam vocabulários que seguem os princípios FAIR

I3 (meta)dados incluem referências qualificadas a outros (meta)dados

  • Para ser Reutilizáveis (Reusable):

R1 (meta)dados são ricamente descritos com uma pluralidade de atributos precisos e relevantes

R1.1 (meta)dados são liberados com uma licença de uso de dados clara e acessível

R1.2 (meta)dados são associados com uma procedência detalhada

R1.3 (meta)dados atendem aos padrões de domínio de uma comunidade

Os principais motivos para disponibilização pública dos dados científicos gerados por seu projeto são:

  • possibilitar um avanço mais rápido das pesquisas da área, a partir do reuso e compartilhamentos dos dados gerados;
  • possibilitar auditoria e reprodução de experimentos;
  • aumentar a visibilidade da pesquisa;
  • cumprir a obrigatoriedade de tornar públicos os dados, determinada por agentes fomentadores.

Os motivos citados visam a atender os princípios conhecidos como FAIR (Findable, Accessible, Interoperable, Reusable), detalhados no item 2

O Plano de Gestão de Dados (PGD) é um documento formal relacionado ao projeto de pesquisa que deve responder a duas perguntas básicas:

  1. Quais dados são gerados?

O pesquisador deve informar o formato dos dados e uma breve descrição dos mesmos, de tal forma que aqueles que pretenderem utilizar possam compreendê-los. Os dados gerados podem, por exemplo, estar em formato de planilha eletrônica, texto ou bancos de dados digitais.

  1. Como e onde esses dados são armazenados e disponibilizados?

O pesquisador deve informar o local de armazenamento e disponibilização dos dados, que pode ser um repositório público ou particular do pesquisador. A resposta a esta pergunta deve envolver aspectos éticos e legais que eventualmente estão envolvidos nos dados.

 

Considerando o formato mais simples, um Plano de Gestão de Dados (PGD) pode ser elaborado em um editor de texto respondendo as perguntas citadas no item anterior.

Acesse aqui um modelo simplificado de Plano de Gestão de Dados (formato PDF)

Há ferramentas disponíveis na Internet para elaboração do PGD, as quais auxiliam a composição do texto por meio de perguntas que o usuário pode responder. Essas ferramentas possibilitam disponibilizar e compartilhar o PGD via Internet, assim como editá-lo de forma colaborativa e imprimi-lo.

A USP tornou-se instituição filiada à dmptool.org, uma organização que disponibiliza a ferramenta DMPTool para elaborar PGDs de forma rápida e prática. A STI configurou esta ferramenta para que pesquisadores da USP possam responder (em Língua Portuguesa ou Inglesa) perguntas cujas respostas compõem um PGD.

Para acessar a ferramenta DMPTool, acesse este endereço: https://dmptool.org/.

Instruções para usar a ferramenta DMPTool:

Use a opção 1 (Option 1: If your institution is affiliated with DMPTool).

Acesse o botão “Your institution” e digite “University of São Paulo”. Em seguida, acione o botão “Go”.

Acesse aqui as instruções da Fapesp para elaboração do Plano de Gestão de dados: http://www.fapesp.br/gestaodedados/

 

Os dados dos pesquisadores da USP (em qualquer formato) poderão ser publicados por meio de plataforma disponibilizada pela USP, que se responsabilizará pela sua segurança durante um período determinado de tempo. Além dos dados propriamente ditos, o pesquisador deverá disponibilizar metadados (descrição dos dados) a fim de facilitar sua compreensão e seu reuso. Atualmente a USP disponibiliza três plataformas construídas a partir de software livre:

CKAN

Dataverse

DSpace

Veja também a seção Perguntas Frequentes (FAQ)

A USP faz parte de um Grupo de Trabalho da FAPESP que visa a estabelecer diretrizes para a gestão de dados científicos de projetos financiados por aquela agência. Dentro deste contexto a USP participa, com outras Universidades, do desenvolvimento de um metabuscador de dados científicos que visa a compilar em um único lugar os dados científicos disponibilizados por pesquisadores das instituições envolvidas.

Acesso ao protótipo do metabuscador.: http://metabuscador.sc.usp.br/