Please use this identifier to cite or link to this item: https://hdl.handle.net/10216/90077
Author(s): Nuno Miguel de Albuquerque Martinho
Title: Identificação Patogénica em Células Humanas Cancerígenas
Issue Date: 2016-07-21
Abstract: About 15% to 20% of cancers in humans are due to viral infections. These infections sometimes have their pathogenic origins in human cells. The presence of bacterias and viruses in human cells, such as human papillomavirus, hepatitis B, among other, increases the risk of developing cancer. These bacterias/viruses are formed from translation, at the ribosome, of the mRNA sequences, resulting in viral proteins.The investment and efforts in the area of Bioinformatics, specifically "Computational Transcriptomics" and "Sequencing and Genotyping Technologies", can help to understand the role of infections and external agents in the formation of cancers.Currently, there are several tools that help in the identification of non-human sequences present in the RNA. These tools allow from RNA mapping, differentiate the sequences between the human genome and bacterial/viral infections. These tools have different degrees of effectiveness depending on the sample and the purpose of the analysis. However, this differentiation, in isolation, does not have a big impact to the study and identification of non-pathogenic on human sequences. The whole process of implementation of these tools tend to be complex and difficult for researchers with a low level knowledge in the area of Informatics.As a possible solution for this problem arises the need to make a platform that automatically, does the mapping and alignment process of the RNA with bacterial/viral infections "datasets". The proposed solution is an online platform connected to a pipeline in a web service that analyzes the samples by applying successive existing tools (Tophat, Bowtie2, Samtools) on the user's sample. Being this mapping iterative and successive filter, it has a large computational weight,consume many resources, and the processing time is proportional to the number of "reads" to map. With the comparison of the sequences against the various "datasets" is expected to be possible to obtain graphic and understandable statistics of the samples gene's mapping . You can check genes with a high RPKM (Reads Per kilobase transcript of per Million mapped reads) and check regions of the genome where are a high number of active genes. The solution aims to be a useful tool in the study of infections and external agents in the formation of cancers.
Description: Cerca de 15% a 20% dos cancros em humanos são devidos a infecções virais. Estas infecções, por vezes, têm a sua origem patogénica nas células humanas. A presença de vírus e bactérias nas células humanas, como Virus do Papiloma Humano, Hepatite B, entre outros, aumenta o risco e a probabilidade de contrair cancro. Estas bactérias/vírus são formadas a partir da tradução, nos ribossomas, das sequências mRNA, originando proteínas virais. O aumento de investimentos e esforços na área da Bioinformática, mais especificamente "Computational Transcriptomics" e "Sequencing and Genotyping Technologies", podem ajudar no estudo das infecções e agentes externos na formação de cancros.Atualmente, existem diversas ferramentas que ajudam na identificação de sequências não humanas presentes no RNA. Estas ferramentas, permitem a partir do mapeamento do RNA, diferenciar entre sequências do genoma humano e as bacteriais/virais. Estas ferramentas têm diferentes graus de eficácia dependendo da amostra e da finalidade da análise. Contudo, esta diferenciação, de maneira isolada, pouco contribui para o estudo e a identificação patogénica de sequências não humanas. Todo o processo de execução destas ferramentas tende a ser complexo e complicado para investigadores com parco conhecimento na àrea de Informática.Assim, como possível solução surge, a necessidade de fazer uma plataforma que de forma automática, processe o mapeamento e alinhamento do RNA com "datasets" bacteriais/virais. A solução proposta é uma plataforma online que com ligação a um pipeline num web service analise as amostras aplicando sucessivas ferramentas já existentes (Tophat, Bowtie2, Samtools). Este mapeamento, sendo ele iterativo e um filtro sucessivo, tem um grande peso computacional, sendo o tempo de processamento proporcional ao número de "reads". Com a comparação das sequências nos vários "datasets" é esperado que seja possível obter estatísticas de forma gráfica e de fácil compreensão sobre o mapeamento do gene de amostras. Será possível verificar regiões com um elevado RPKM (Reads Per Kilobase of transcript per Million mapped reads) e regiões do genoma onde há mais sequências com genes activos. A solução tem como objetivo ser uma ferramenta útil no estudo das infecções e agentes externos na formação de cancros.
Subject: Engenharia electrotécnica, electrónica e informática
Electrical engineering, Electronic engineering, Information engineering
Scientific areas: Ciências da engenharia e tecnologias::Engenharia electrotécnica, electrónica e informática
Engineering and technology::Electrical engineering, Electronic engineering, Information engineering
TID identifier: 201315084
URI: https://repositorio-aberto.up.pt/handle/10216/90077
Document Type: Dissertação
Rights: openAccess
Appears in Collections:FEUP - Dissertação

Files in This Item:
File Description SizeFormat 
140115.pdfIdentificação Patogénica em Células Humanas Cancerígenas3.03 MBAdobe PDFThumbnail
View/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.