Please use this identifier to cite or link to this item: https://hdl.handle.net/10216/106487
Author(s): Pedro Manuel dos Santos Rocha
Title: Data Integration Solution in an Heterogeneous Environment
Issue Date: 2017-07-17
Abstract: Over the last few years there has been an increase in the attention given to both data collection and knowledge extraction. Recent developments in data storage, distributed systems and parallelization made the analysis of vast amounts of data more straightforward. However, whilst processing large quantities of information has been made simpler there are still some problems that need to be addressed. One of these problems resides in the clean-up of the data collected, meaning the transformation of the information collected into a more useful format from where knowledge can be extracted.Usually this problem is addressed by developing a solution on a case by case basis that has no power of generalization. As expected, this type of solution works well in an environment where the data is well known and with a fixed structure, but if there are changes in the initial structure or the final structure of the information there needs to be an adjustment made to the solution. This brings added complexity that can cause an application to become increasingly difficult to maintain and add new features.The solution that is analyzed throughout this dissertation work is the creation of an application where a user can combine and transform information that originates from different sources. This is made utilizing user-defined configuration documents, so that when a change is made in the system the impact for the end-user is minimized.In order to better test the suitability of the solution, it is going to be developed using a real-world scenario. This scenario is based on an already existing application that collects information from a variety of sources and has the necessity of transforming the information collected into a more useful structure.
Description: Ao longo dos últimos anos tem vindo a haver um aumento da atenção dada à recolha de informação e extração de conhecimento. Desenvolvimentos recentes nas áreas de armazenamento de dados, sistemas distribuídos e paralelização fizeram com que a análise de vastas quantidades de informação se tornasse mais direta. No entanto, apesar do processamento de grandes quantidades de informação ser mais simples ainda existem alguns problemas que necessitam ser adereçados. Um destes problemas está localizado na limpeza da informação que é recolhida, ou seja a transformação da informação num formato mais simples para a extração de conhecimento.Normalmente, este problema é abordado com o desenvolvimento de uma solução específica para cada caso, sem a capacidade de ser generalizada. Como esperado, este tipo de solução funciona bem num ambiente onde os dados são bem conhecidos e possuem uma estrutura fixa, mas se existir uma alteração na estrutura inicial ou final da informação é necessário fazer um ajuste à solução. Esta situação traz mais complexidade, o que pode causar um aumento de dificuldade na manutenção e desenvolvimento de novas funcionalidades numa aplicação.A solução que está a ser analisada nesta dissertação é o desenvolvimento de uma aplicação onde um utilizador pode agregar e transformar informação que origina de fontes de informação diferentes. Esta capacidade é conseguida através da utilização de documentos definidos pelo utilizador para que uma modificação no sistema implique o mínimo de impacto para o utilizador final.Esta solução vai ser testada num ambiente real de forma a melhor testar a usabilidade desta. O cenário baseia-se numa aplicação que extrai informação de várias fontes de informação e, de momento, necessita de diversos módulos diferentes para fazer a transformação de informação da sua estrutura inicial para uma mais adequada.
Subject: Engenharia electrotécnica, electrónica e informática
Electrical engineering, Electronic engineering, Information engineering
Scientific areas: Ciências da engenharia e tecnologias::Engenharia electrotécnica, electrónica e informática
Engineering and technology::Electrical engineering, Electronic engineering, Information engineering
TID identifier: 201802252
URI: https://repositorio-aberto.up.pt/handle/10216/106487
Document Type: Dissertação
Rights: openAccess
License: https://creativecommons.org/licenses/by-sa/4.0/
Appears in Collections:FEUP - Dissertação

Files in This Item:
File Description SizeFormat 
205568.pdfData Integration Solution in an Heterogeneous Environment986.52 kBAdobe PDFThumbnail
View/Open


This item is licensed under a Creative Commons License Creative Commons