Publicação De Dados De Pesquisa Científica: Proposta De Estruturação Semântica De Cadernos Abertos De Pesquisa Frente Às Dimensões Da E-Science
Total Page:16
File Type:pdf, Size:1020Kb
UNIVERSIDADE ESTADUAL PAULISTA JÚLIO MESQUITA FILHO Faculdade de Filosofia e Ciências Programa de Pós-Graduação em Ciência da Informação LUCIANA CANDIDA DA SILVA Publicação de Dados de Pesquisa Científica: proposta de estruturação semântica de cadernos abertos de pesquisa frente às dimensões da e-Science Orientador: Professor Dr. José Eduardo Santarem Segundo Marília, SP 2020 UNIVERSIDADE ESTADUAL PAULISTA JÚLIO MESQUITA FILHO Faculdade de Filosofia e Ciências Programa de Pós-Graduação em Ciência da Informação LUCIANA CANDIDA DA SILVA Publicação de Dados de Pesquisa Científica: proposta de estruturação semântica de cadernos abertos de pesquisa frente às dimensões da e-Science Tese apresentada ao Programa de Pós-Graduação em Ciência da Informação da Universidade Estadual Paulista Júlio Mesquita Filho como parte dos requisitos para obtenção do título de Doutora em Ciência da Informação. Orientador: Professor Dr. José Eduardo Santarem Segundo Área de concentração: Informação, Tecnologia e Conhecimento Linha de Pesquisa: Informação e Tecnologia Marília, SP 2020 Catalogação na Publicação Silva, Luciana Candida da. S856p Publicação de dados de pesquisa científica [manuscrito]: proposta de estruturação semântica de cadernos abertos de pesquisa frente às dimensões da e-Science / Luciana Candida da Silva. – Marília, 2020. 243 f. : il. ; 30 cm. Tese (Doutorado) – Programa de Pós-Graduação em Ciência da Informação, Universidade Estadual Paulista Júlio Mesquita Filho (PPGCI/UNESP), 2020. Orientador: Prof. Dr. José Eduardo Santarem Segundo. 1. Dados de pesquisa científic a. 2. Cadernos abertos de pesquisa. 3. Web Semântica. 4. Linked Data. 5. e-Science. I. Santarem Segundo, José Eduardo (orientador). II. Título. CDU: 004.65 CDD: 005.73 Luciana Candida da Silva Bibliotecária CRB-1 /1831 Como citar esse documento: SILVA, Luciana Candida da. Publicação de dados de pesquisa científica: proposta de estruturação semântica de cadernos abertos de pesquisa frente às dimensões da e-Science. Orientador: José Eduardo Santarem Segundo. 2020. 243 f. Tese (Doutorado em Ciência da Informação) - Programa de Pós- Graduação em Ciência da Informação, Universidade Estadual Paulista Júlio Mesquita Filho (PPGCI/UNESP), Marília, SP, 2020. LUCIANA CANDIDA DA SILVA Publicação de Dados de Pesquisa Científica: proposta de estruturação semântica de cadernos abertos de pesquisa frente às dimensões da e-Science Tese apresentada ao Programa de Pós- Graduação em Ciência da Informação da Universidade Estadual Paulista Júlio Mesquita Filho (UNESP), como requisito parcial para obtenção do título de doutora em Ciência da Informação. BANCA EXAMINADORA: Prof. Dr. José Eduardo Santarem Segundo Universidade Estadual Paulista Júlio Mesquita Filho (PPGCI/UNESP) Universidade Estadual de São Paulo (USP) Profa. Dra. Silvana Aparecida Borsetti Vidotti Universidade Estadual Paulista Júlio Mesquita Filho (PPGCI/UNESP) Prof. Dr. Leonardo Castro Botega Universidade Estadual Paulista Júlio Mesquita Filho (PPGCI/UNESP) Prof. Dr. Dalton Lopes Martins Universidade de Brasília (PPGCI/UNB) Profa. Dra. Liliana Giusti Serra Software Sophia Marília-SP, 18 de setembro de 2020. Dedico esta conquista às minhas estrelas preferidas que acompanharam o desenvolvimento deste estudo lá do céu, José Francisco da Silva e Manoel Francisco da Silva, irmão e pai, e indiscutivelmente, à joia mais preciosa do meu mundo, Júlia Candida da Silva, minha amada mãe, que partiu para o encontro de Deus no transcurso desta tese. AGRADECIMENTOS Ao meu professor e orientador, José Eduardo Santarem Segundo, pelo empenho em esclarecer e nortear o desenvolvimento desta tese, pela paciência, cuidado e confiança. Aos professores membros da banca, Silvana Aparecida Borsetti Vidotti, Leonardo Castro Botega, Dalton Lopes Martins e Liliana Giusti Serra pelas ricas contribuições a este estudo. Aos professores da linha de pesquisa Informação e Tecnologia do Programa de Pós- Graduação em Ciência da Informação da UNESP, em especial aos professores Eduardo Santarem, Zaira Zafalon, Plácida L. Santos, Silvana Vidotti, Leonardo Botega, José Augusto e Daniel Martinez pelas contribuições em minha formação acadêmica. À Universidade Federal de Goiás, pela licença concedida para realizar e viver esse grandioso mundo do doutorado. Aos colegas do curso de Biblioteconomia que, mesmo após o fim da licença capacitação, proporcionaram condições para que eu pudesse concluir a tese. À minha família, em especial aos meus pais e irmãos, os quais me criaram com amor e dedicação, pelas lições de vida, pelas alegrias compartilhadas e por todo aprendizado ensinado. Agradecimento especial à sobrinha Adrielle Cristina por compartilhar os conhecimentos às pesquisas experimentais. Também, ao brother in law Seth Hammer Alalof, pelas traduções dos meus textos, e ao Renan pelo apoio e companheirismo. Aos amigos que direta ou indiretamente contribuíram para a realização desta pesquisa. À Deus, pela saúde, força e sabedoria! ―Nenhum de nós é tão inteligente como todos nós‖ Philip Condit RESUMO Vivencia-se um período de mudanças nas práticas científicas, exigindo novas maneiras de gerar e comunicar a ciência. Essa nova maneira implica em disponibilizar dados de pesquisa científica gerados em laboratórios de pesquisa em tempo real, ou o mais próximo disso, em formatos abertos e estrutura adequada para permitir que sejam acessíveis, compartilháveis e reutilizáveis. Neste contexto, vislumbra-se na Web Semântica e no Linked Data conceitos e tecnologias que enfatizam a reutilização e a ligação de recursos ricamente descritos na Web. O objetivo geral desta tese é propor diretrizes semânticas para estruturação e publicação de dados abertos de cadernos de pesquisa, visando melhorias na qualidade da sua recuperação e compartilhamento em plataformas de acesso aberto. Nesse sentido, para realizar esse estudo, foram identificados os elementos conceituais e práticos presentes nas dimensões da e-Science, e apresentadas as características e as especificidades dos dados científicos anotados em cadernos de pesquisa. Na sequência, descreveu-se os conceitos e tecnologias da Web Semântica e Linked Data apropriadas para publicações desses dados em plataformas de acesso aberto. As diretrizes propostas nesta tese adotaram a etapa correspondente à formalização, estrutura, formatos e licenças de Santarem Segundo (2018). A metodologia seguiu os procedimentos tradicionais para delimitação do universo e amostragem da pesquisa, como sua classificação e coleta de dados; e, revisão sistemática de literatura para identificar trabalhos relacionados ao estado da arte dos cadernos abertos de pesquisa, no que se refere a sua estrutura e publicação para acesso e uso dos dados. Definiu-se que a pesquisa é de natureza qualitativa e finalidade aplicada; o método é bibliográfico, descritivo, exploratório, documental e de levantamento. Para a composição das diretrizes semânticas, identificou-se o ecossistema da pesquisa cientifica em torno do caderno de laboratório, realizou a modelagem dos dados a partir do modelo conceitual IFLA LRM, o mapeamento e a definição dos metadados apropriados ao contexto dos cadernos de pesquisa. Logo, os vocabulários selecionados foram descritos, bem como foram indicados os vocabulários para enriquecimento e as licenças de uso. Depois disso, analisou-se as correspondências entre os metadados e as propriedades dos vocabulários Schema.org, DC Terms, SKOS e RDA Element Sets. Em seguida foi construído o mapeamento das propriedades para relacionamentos de dados. Após o estudo das etapas, analisou-se os elementos quanto ao alcance dos Princípios FAIR e melhores práticas do W3C. Como resultado da pesquisa, estabeleceu-se um conjunto de diretrizes semânticas compostas de elementos e tecnologias que refletem a realidade de pesquisas laboratoriais e a descrição de experimentos com uma pluralidade de atributos, precisos e relevantes, os quais poderão proporcionar benefícios à comunidade cientifica com dados organizados, padronizados e disponíveis para o reuso. A aplicação devida dessas diretrizes, no que se refere à estruturação de dados, colabora para que os dados sejam encontráveis, acessíveis, interoperáveis e reutilizáveis. Palavras-chave: Dados de pesquisa científica. Cadernos abertos de pesquisa. Cadernos de laboratório. Linked Data. Web Semântica. e-Science. Diretrizes semânticas. ABSTRACT We are in a period of changes in scientific practices requiring new ways to generate and communicate science. This new way implies making available scientific research data generated in research laboratories in real time, or the closest, in open formats and adequate structure to allow the data to be accessible, shareable and reusable. In this context, one sees in the Semantic Web and Linked Data concepts and technologies that emphasize the reuse and connection of resources richly described on the Web. The general objective of this thesis is to propose semantic guidelines for structuring and publishing open data from research notebooks, aiming to improve the quality of data recovery and sharing on open access platforms. For this, the conceptual and practical elements present in the e-Science dimensions were identified. It presented the characteristics and specificities of the scientific data noted in research notebooks. It then described the concepts and technologies of the Semantic Web and Linked Data appropriate for publishing these data on open access platforms. The guidelines proposed in this thesis adopted the stage corresponding to the formalization, structure, formats and licenses of