Please use this identifier to cite or link to this item:
Author(s): Fábio Filipe Jesus da Silva
Title: EUDAT Link: Integração da plataforma Dendro com a rede de gestão de dados europeia EUDAT
Issue Date: 2016-07-18
Abstract: There has been an increasing number of initiatives to make scientific researches available to a broad range of users in order to contribute for better science. From data management plans that lead researchers to think about open access strategies beforehand, to make research results publicly available, all these kinds of movements are part of the broad definition of "Open Science". Researchers produce datasets in diverse formats, covering several specific research domains. When research projects come to an end, their datasets can be deposited in platforms responsible for their preservation and dissemination. Recent guidelines are pushing researchers to actively manage their produced data and ensure that they get to an appropriate repository at the end of their work. Nevertheless, research data can't be understood without additional information about it, so context must be provided by researchers themselves, in order to facilitate their understanding by external parties, which is metadata. From the author's name to the temperature of a solution during some measurements, every metadata field adds value to the long-term survival of data. The former is easily gathered without the researcher's intervention, but the same does not apply to the latter. This domain-level description can only be done by researchers, who should do it ideally in early stages in their research workflow. Their participation in the description process is then important, and they often do it using less conventional formats like free text on paper notes that easily get lost. Researchers can achieve a better description if they are given appropriate tools to describe their data without requiring much effort or losing focus on their project, in early stages. Dendro platform, created on the Faculty of Engineering in the University of Porto, plays the role of a collaborative and descriptive tool for researchers during the initial stages of data production, allowing them to make descriptions with domain vocabularies. Data description is a task that is often already a part of daily research activities, but done in fragile or temporary supports. Dendro is not designed as a preservation platform, but instead focused on enabling researchers to incrementally describe their data. Dendro focuses then on the initial stages of the research workflow, where researchers are more aware of their data's characteristics, thus serving as a staging platform that can later connect to external repositories specifically designed for data preservation and dissemination on the long run. EUDAT intends to be the pan-European platform of reference for research data management. It features several modules, each one with specific features to accommodate researchers' needs in terms of storage, processing and refinement, collaboration and preservation. EUDAT is a large set of tools that fulfills the main requirements within this field, plus having great marketing, having a set of experimental services that can be adopted at institutional level. This work leverages Dendro's capabilities to handle data description across several domains and produce extensive metadata records, by providing means for data to be available, which means a deposition into EUDAT. Disclosure restrictions may be part of some research projects, so privacy levels were implemented within Dendro to protect sensitive data. All records are standard-compliant, and EUDAT makes use of that particularity to improve the dataset's visibility and chances of being retrieved and reused later on. This deposition is achieved by two different approaches: in first place, through an OAI-PMH server that exposes metadata from "public" and "metadata-only" projects on a regular basis to EUDAT's B2Find module. A "public" project provides a read-only view for anyone that accesses the project's page, whilst a "metadata-only" project can only be seen by requesting access to its creator, which can be easily made through the project's page. Secondly, a project's data and metadata are packaged and sent to EUDAT's B2Share module upon researcher's request, which is made via Dendro's interface. By the time the package is sent, all relevant metadata from the project itself is sent along to describe it within B2Share, which is later fundamental for retrieving that same data. All the researchers need is then the record's URL, which is immediately shown on the screen and sent to the email, so they can track it at any time. This same page provides the researcher with an handler that uniquely identifies the dataset and that redirects to this same page. This module, which makes the bridge between institutional and international levels, contributes effectively to the long-term preservation and dissemination of data, assisting researchers on the arduous task of data deposition, which is accomplished by using all the information that was already made available by them during the Dendro phase. Tests among some researchers of different domains have proved the effectiveness of this integration module. After creating a project with an appropriate privacy level, describing it with domain metadata and depositing it within EUDAT, they made sure all data and metadata were correct in the deposit's EUDAT page. The handle they got was also valid and redirecting them to the dataset's page. To test the dissemination aspect, they made some searches within B2Share, using terms like their name, words from the description and title. Their datasets were retrieved, which means the metadata sent by Dendro was essential and that a proper description has a major role for this part.
Description: O número de iniciativas para tornar trabalhos científicos abertos à comunidade tem vindo a crescer, de modo a contribuir para uma ciência melhor e mais eficaz. Desde planos de gestão de dados, que levam os investigadores a pensar previamente acerca de estratégias de acesso aberto, até tornar resultados de pesquisas públicos, todo este tipo de iniciativas faz parte da vasta definição de "Open Science". Os investigadores produzem conjuntos de dados nos mais diversos formatos, cobrindo vários domínios de investigação específicos. Quando projectos de investigação chegam ao fim, os conjuntos de dados podem ser depositados em plataformas responsáveis pelas suas preservação e disseminação. Recentes directrizes têm vindo a levar os investigadores a gerir activamente os seus dados e a assegurar que estes são depositados num repositório apropriado no final do projecto. No entanto, os dados de investigação não podem ser compreendidos sem o auxílio de informações adicionais acerca destes. Por esse motivo, os investigadores devem dar contexto aos dados, de forma a facilitar a sua compreensão por parte de terceiros, através de metadados. Desde o nome do autor até à temperatura de uma solução durante uma experiência, cada campo dos metadados adiciona valor à preservação a longo prazo dos dados. Enquanto no primeiro caso é fácil para qualquer pessoa preencher esse mesmo campo, o mesmo não acontece com o segundo. Esta descrição ao nível do domínio deve ser efectuada pelos investigadores, que o devem fazer em fases iniciais do processo de investigação. A sua participação no processo de descrição é importante e, por norma, tendem a fazê-lo usando formatos pouco convencionais, tais como notas em papel que facilmente se perdem ou deterioram. Os investigadores podem alcançar melhores descrições se lhes forem fornecidas ferramentas apropriadas para o fazerem, isto sem que lhes seja requerido muito esforço ou sem que percam o foco no seu trabalho. A plataforma Dendro, criada na Faculdade de Engenharia da Universidade do Porto, trata-se de uma ferramenta colaborativa e descritiva focada nos investigadores durante a fase inicial de produção de dados, permitindo-lhes efectuar descrições com vocabulários de domínio. A descrição de dados é uma tarefa regularmente efectuada como parte do trabalho diário dos investigadores, mas de forma frágil ou mesmo temporária. O Dendro não foi concebido como uma plataforma de preservação, mas antes focada em possibilitar que os investigadores descrevam os seus dados de forma incremental. Esta plataforma foca-se na fase inicial do processo de investigação, fase na qual os investigadores estão mais cientes das características dos seus dados. Desta forma, funciona como uma área inicial que pode depois conectar-se a repositórios externos, especialmente concebidos para a preservação a longo prazo e disseminação. O EUDAT pretende ser a plataforma pan-Europeia de eleição para a gestão de dados de investigação. Consiste numa série de módulos, cada qual com um propósito diferente para acomodar as necessidades dos investigadores em termos de armazenamento, processamento e refinação, colaboração e preservação. O EUDAT é um conjunto de ferramentas que cumpre com os principais requisitos desta área, que goza de grande propaganda e que possui alguns serviços experimentais que podem ser adoptados a nível institucional. Este trabalho eleva as capacidades do Dendro para cuidar da descrição de dados em vários domínios e produzir extensos registos de metadados, fornecendo meios para que os dados estejam depois disponíveis, o que significa depositá-los no EUDAT. Restrições de divulgação podem fazer parte de alguns projectos de investigação, pelo que foram implementados níveis de privacidade no Dendro de forma a proteger dados sensíveis. Todos os registos de metadados seguem padrões definidos internacionalmente, sendo que o EUDAT faz uso dessa particularidade para melhorar a visibilidade dos dados e as hipóteses de estes serem mais tarde recuperados. Este depósito é alcançado por duas abordagens diferentes: primeiro, através de um servidor que segue o protocolo OAI-PMH e que expõe os metadados de projectos definidos com os níveis de privacidade "público"ou "apenas metadados". Estes metadados são recolhidos pelo módulo B2Find do EUDAT de forma regular. Um projecto público fornece uma vista de apenas leitura a qualquer utilizador que aceda à página do projecto no Dendro, enquanto que um projecto com o nível "apenas metadados" pode apenas ser visto mediante autorização por parte do criador do projecto, que pode facilmente ser requerida através da página do projecto. Em segundo lugar, através da exportação directa através da interface do Dendro. Os dados e metadados do projecto são então empacotados e enviados para o módulo B2Share quando o investigador assim desejar. Aquando do envio do pacote, todos os metadados relevantes do próprio projecto são usados para descrever os dados no B2Share, o que é fundamental para a sua recuperação mais tarde. Tudo o que os investigadores depois precisam é do URL do registo no B2Share, que é imediatamente mostrado na interface do Dendro e enviado para o "email" do investigador, para que mais tarde possa aceder aos dados. Esta página, acedida através do URL, fornece também um identificador único para o conjunto de dados enviado. Este módulo de integração, que faz a ligação entre os níveis institucional e internacional, contribui efectivamente para a preservação a longo prazo e para a disseminação dos dados, dando assistência aos investigadores durante a árdua tarefa de depósito dos mesmos. Tal é conseguido através do uso de todas as informações que foram previamente fornecidas pelo próprio investigador durante a fase no Dendro. Testes efectuados junto de investigadores de diferentes domínios mostraram a eficácia deste módulo de integração. Após criarem um projecto com um nível de privacidade apropriado, descreverem-no com metadados de domínio e depositarem-no no EUDAT, os investigadores certificaram-se que todos os dados e metadados estavam correctos na página dos dados no B2Share. O identificador que receberam era também válido e redirecionava-os para essa mesma página. Para testar o aspecto da disseminação, fizeram algumas pesquisas no B2Share, usando termos como o seu nome, palavras que faziam parte da descrição do projecto ou do título do mesmo. Os seus dados foram retornados pela pesquisa, o que significa que os metadados enviados pelo Dendro mostraram-se essenciais e que a descrição correcta dos dados tem um papel fundamental em todo o processo.
Subject: Ciências da computação e da informação
Computer and information sciences
Scientific areas: Ciências exactas e naturais::Ciências da computação e da informação
Natural sciences::Computer and information sciences
TID identifier: 201302608
Document Type: Dissertação
Rights: openAccess
Appears in Collections:FEUP - Dissertação

Files in This Item:
File Description SizeFormat 
151181.pdfEUDAT Link: Integrating Dendro Platform With EUDAT, a Pan-European Data Management Network1.19 MBAdobe PDFThumbnail

This item is licensed under a Creative Commons License Creative Commons