Please use this identifier to cite or link to this item: https://hdl.handle.net/10216/74687
Author(s): Ricardo José Moreira Pinho
Title: Metodologias de aprendizagem automática na descoberta de interações entre genes em doenças complexas
Issue Date: 2014-07-11
Abstract: Gene-gene interactions have been found to involve a considerable amount of SNPs. However, many Genome Wide Association Studies (GWAS) have been performed with interesting results. The amount of computing power required was not possible to achieve until recently. Machine Learning methodologies quickly became a successful tool to find previously unknown genetic relations. The popularity of this field increased greatly after discovering the potential value of epistatic studies in the detection and understanding of how phenotypes are expressed. The purpose of this dissertation is to increase the knowledge obtained from these studies, detecting more interactions related to the manifestation of complex diseases.To achieve this goal, there are two main stages. The first stage consists of a comparison study amongst the most recent statistical and machine learning methodologies using simulated data sets containing generated epistatic interactions. The algorithms BEAM3.0, BOOST, MBMDR, Screen and Clean, SNPHarvester, SNPRuler, and TEAM were processed with many different settings of data sets. The results showed that BEAM3.0, BOOST, SNPHarvester, SNPRuler, and TEAM were the best algorithms in relation to Power, Type I Error Rate, and Scalability.The second stage is the creation of new combination of a new algorithm based on the results obtained in the first stage. This new algorithm is comprised of an aggregation of previously tested methodologies, of which 5 algorithms were chosen. This new Ensemble approach manages to maintain the Power of the best algorithm, while decreasing the Type I Error Rate.The purpose of this dissertation is to show a new complex empirical study, and a newly improved Ensemble approach, that shows better results than the existing state-of-the-art algorithms.
Description: Interações entre genes envolve uma quantidade considerável de SNPs. No entanto, muitos Estudos de Associação do Genoma Completo (GWAS) foram realizados com resultados interessantes. O poder de processamento necessário para estes testes só foi atingido recentemente. Metodologias de Aprendizagem Automática tornaram-se rapidamente numa ferramenta eficiente para encontrar relações genéticas desconhecidas anteriormente. A popularidade desta área aumentou bastante depois de descoberto valor potencial dos estudos epistáticos na deteção e entendimento de como os fenótipos são expressos. O propósito desta dissertação é aumentar o conhecimento obtido destes estudos, detetando mais interações relacionadas com a manifestação de doenças complexas.Para alcançar este objetivo, há duas principais etapas. A primeira etapa consiste num estudo comparativo entre os métodos estatísticos e de Aprendizagem Automática mais recentes usando dados simulados contendo interações epistáticas geradas artificialmente. Os algoritmos BEAM3.0, BOOST, SNPHarvester, SNPRuler, e TEAM foram os algoritmos que apresentaram melhores resultados em relação ao Poder, Frequência de Erros Tipo I e Escalabilidade.A segunda etapa é a criação de uma combinação de algoritmos baseados nos resultados obtidos na primeira etapa. Este novo algoritmo é composto por uma agregação das melhores metodologias testadas previamente, dos quais foram selecionados 5 algoritmos. Esta nova abordagem Ensemble permite manter o Poder do melhor algoritmo, enquanto diminui os erros tipo I associados.O propósito para esta dissertação é mostrar um estudo empírico complexo e uma nova abordagem Ensemble que produz melhores resultados do que os algoritmos de estado da arte existentes.
Subject: Engenharia electrotécnica, electrónica e informática
Electrical engineering, Electronic engineering, Information engineering
Scientific areas: Ciências da engenharia e tecnologias::Engenharia electrotécnica, electrónica e informática
Engineering and technology::Electrical engineering, Electronic engineering, Information engineering
TID identifier: 201318350
URI: https://repositorio-aberto.up.pt/handle/10216/74687
Document Type: Dissertação
Rights: openAccess
License: https://creativecommons.org/licenses/by-nc/4.0/
Appears in Collections:FEUP - Dissertação

Files in This Item:
File Description SizeFormat 
32009.pdfMetodologias de aprendizagem automática na descoberta de interações entre genes em doenças complexas2 MBAdobe PDFView/Open


This item is licensed under a Creative Commons License Creative Commons