Please use this identifier to cite or link to this item: https://hdl.handle.net/10216/106492
Author(s): Vítor Filipe Oliveira Teixeira
Title: Deep Learning for genomic data analysis
Issue Date: 2017-07-14
Abstract: Since the Human Genome Project, the availability of genomic data has largely increased. In the last years, genome sequencing technologies and techniques have been improving at a fast rate, resulting in a cheaper and faster genome sequencing. Such amount of data enables both more complex analysis and advances in research. However, a sequencing process quite often produces a huge amount of data that is highly complex. A considerable computational power and efficient algorithms are mandatory in order to extract useful information and perform it in reasonable time, which can represent a constraint on the extraction and comprehension of such information.In this work, we focus on the biological aspects of RNA-Seq and its analysis using traditional Machine Learning and Deep learning methods. We divided our study into two branches. First, we built and compared the accuracy of classifiers that were able distinguish the RNA-seq samples of thyroid cancer patients from samples of healthy persons. Secondly, we have investigated the possibility of building comprehensible descriptions for the differences in the RNA-Seq data by using Denoising Autoencoders and Stacked Denoising Autoencoders as base classifiers and then devising post-processing techniques to extract comprehensible and biologically meaningful descriptions out of the constructed models.
Description: Desde o Human Genome Project que os dados genómicos se tornam de fácil acesso. Com os inúmeros investimentos na área, as tecnologias de sequenciação de genomas tornam-se mais avançadas e sofisticadas, permitindo assim uma sequenciação mais fácil e mais rápida. Tal quantidade de dados permite uma melhor e mais avançada pesquisa, o que leva a avanços na área. No entanto, este processo de sequenciação produz dados quer de elevada dimensionalidade, quer de elevado volume e para isso são necessários um bom poder computação e algoritmos eficientes de maneira a extrair informação útil num tempo aceitável, o que representa uma barreira no que diz respeito à extração e interpretação da informação.Neste trabalho focamo-nos principalmente nos aspectos biológicos do RNA-Seq e na sua análise usando os métodos mais comuns de Machine learning, e Deep Learning. O trabalho foi dividido em duas vertentes. Na primeira construímos e comparamos a precisão de classificadores que foram capazes de distinguir amostras de RNA-Seq de pacientes com cancro de amostras de pessoas saudáveis. Em segundo lugar foi investigada a possibilidade de construir boas descrições dos dados a partir das diferenças nos dados de expressão genética usando Denoising Autoencoders e Stacked Autoencoders como classificadores base, e depois fazer o pós-processamento dos dados extraídos dos modelos de maneira a conseguir extrair informação importante.
Subject: Engenharia electrotécnica, electrónica e informática
Electrical engineering, Electronic engineering, Information engineering
Scientific areas: Ciências da engenharia e tecnologias::Engenharia electrotécnica, electrónica e informática
Engineering and technology::Electrical engineering, Electronic engineering, Information engineering
TID identifier: 201804042
URI: https://repositorio-aberto.up.pt/handle/10216/106492
Document Type: Dissertação
Rights: openAccess
Appears in Collections:FEUP - Dissertação

Files in This Item:
File Description SizeFormat 
205645.pdfDeep learning for genomic data analysis1.38 MBAdobe PDFThumbnail
View/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.