Please use this identifier to cite or link to this item: http://hdl.handle.net/10216/106216
Author(s): José Miguel de Sousa Pessanha Pereira de Melo
Title: Anonimização de informação clínica
Issue Date: 2017-07-17
Abstract: Over the past years, with the progress of technology, the amount of data being collected by the IT systems has exponentially grown. By using data mining techniques, this data can be analyzed to find trends and statistics, which are really useful for all companies and industries. The analysis and data sharing for studies became a large industry, with a great impact in all sectors. However, with this comes the concern with individual privacy - there is a huge amount of data which is private and should not be public in any circumstances - so, it is highly needed to find a solution to share and analyse data while protecting privacy. Nevertheless, it is truly important to take into account performance issues as the anonymization process should not hinder the normal functioning of the operational system.The focus goes to clinical data, which allows medical researchers to learn trends, statistics and relations between certain clinical attributes, such as correlations between gender and a specific disease. These studies and data analysis are very important as they can bring great benefits and knowledge in healthcare. However, maintaining individual privacy is crucial.In order to solve this problem, a new solution will be proposed and developed to efficiently anonymize data. With this solution, the user can quickly and efficiently anonymize a given dataset, according to the initially provided configurations. The tool receives as input the dataset to anonymize and a minimal configuration to specify the required anonymization parameters, and returns as output the corresponding anonymized dataset. The anonymization is done recurring to well known models and algorithms to protect privacy, associated with specific clinical criteria, restrictions and hierarchies.This solution will be validated using a subset of clinical data that needs to be anonymized. After the anonymization process, an anonymized version of the subset is expected that meets the selected privacy model, balancing enough privacy versus keeping research value. As well as the result, the performance will be evaluated in order to validate the solution's applicability.It is intended with this solution to surpass the issue of individual data privacy when sharing data and to have impact in healthcare studies, allowing them to continue without connecting any data to any specific identity, protecting individual privacy.
Description: Nos últimos anos, com o avanço da tecnologia, a quantidade de dados armazenados pelos sistemas de informação tem vindo a crescer exponencialmente. Recorrendo a técnicas de data mining, estes dados podem ser analisados para encontrar tendências e estatísticas, que são de grande utilidade para todas as empresas e industrias. Assim, a análise e a partilha de informação para estudos tornou-se uma indústria com grande impacto em todos os setores. No entanto, com isto surgem as preocupações com a privacidade individual - muita informação é privada e não deve ser tornada publica em nenhuma circustância. Portanto, surge a necessidade de encontrar uma solução para partilhar a informação, protegendo a privacidade. Esta solução deve ter em conta problemas de performance para não comprometer o normal funcionamento do sistema.O foco são os dados clínicos, que permite aos investigadores clínicos encontrar novas tendências, estatísticas e relações entre atributos clínicos, como doenças e género. Estes estudos são de extrema importância por trazerem benefícios e conhecimentos na área da saúde. No entanto, a privacidade individual é crucial.Para resolver o problema, uma nova solução irá ser proposta e desenvolvida para anonimizar dados. Com esta solução, o utilizador pode, de forma rápida e eficaz, anonimizar um conjunto de dados, de acordo com uma dada configuração. A ferramenta recebe como input os dados a anonimizar e uma configuração dos parâmetros necessários, e devolve como output os dados anonimizados. A anonimização é feita recorrendo a modelos e algoritmos de privacidade já conhecidos, associados a restrições, critérios e hierarquias especificas da área da saúde.Esta solução vai ser validada usando um conjunto de dados clínicos que necessitam ser anonimizados. Após o processo de anonimização, é expectável um conjunto de dados que cumpre o modelo de privacidade selecionado, balanceando a privacidade e o valor para pesquisa. Assim como os resultados, a performance também vai ser avaliada, de forma a validar a aplicabilidade da solução.Com esta solução é pretendido ultrapassar o problema da privacidade individual aquando da partilha de informação, tendo um impacto positivo nos estudos clínicos ao permitir que estes continuem sem que os dados sejam associados a um indivíduo em especifico.
Subject: Engenharia electrotécnica, electrónica e informática
Electrical engineering, Electronic engineering, Information engineering
TID identifier : 201799944
URI: http://hdl.handle.net/10216/106216
Document Type: Dissertação
Rights: embargoedAccess
Embargo End Date: 2020-07-16
Appears in Collections:FEUP - Dissertação

Files in This Item:
File Description SizeFormat 
203764.pdfAnonimização de informação clínica7.41 MBAdobe PDF    Request a copy


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.