Please use this identifier to cite or link to this item: http://hdl.handle.net/10216/106604
Author(s): Vânia Alice Sousa Leite
Title: Identificação de Bioprocessos em textos
Issue Date: 2017-07-13
Abstract: Due to the large diversity, heterogeneity and ever growing rate of publications made electronicallyavailable in databases such as PubMed, biomedical researchers spend a lot of time and effortsearching for the available information in their area of research. A lot of issues cause this difficulty, among them the fact that there are various forms of representation expressions for the same object or activity in the biomedical field, orthographic variants and abbreviations, meaning that most standard publication search engines can't deal with this variety. Biomedical Text Mining (BTM),the field that deals with automatic retrieval and processing of biomedical literature, is therefore avery promising research field, namely in the retrieval of biological elements or concepts, workingtowards developing automated curation tools to better aid researchers to cope with this aforementioned information overload. This dissertation has the aim of developing a tool do automatically extract biological processes from texts, making use of state of the art BTM tasks such as NER, ontological knowledge and classification, and integrating different tools for knowledge discovery in texts - for example Genia Tagger (gives text information such as base forms, lemma, chunk, part-of-speech tag (POST) and named entities), UMLS Metamap (a program developed to discover UMLS Metathesaurus concepts referred to in texts) - to experiment with different settings and tools to find the best way to fruitfully combine all of this and help researchers find relevant information for their studies in a quicker way.
Description: Devido ao crescimento exponencial de publicações na área das Ciências da Vida disponíveis em plataformas eletrónicas tais como PubMed e à grande diversidade e heterogeneidade no tipo de textos que se encontram nestas publicações, os investigadores nesta área dedicam muito tempo e esforço a procurarem o que precisam entre toda a informação disponível. Há muitas particularidades que contribuem para esta dificuldade, como por exemplo o facto de existirem muitas vezes várias representações para o mesmo objeto ou entidade neste campo, variações ortográficas e variações, o que significa que os motores de busca standard não lidam muito bem com esta variedade. Biomedical Text Mining (BTM), o campo que lida com a recuperação e processamento automáticos na literatura biomédica, é então um campo de investigação promissor, contribuindo para o desenvolvimento de ferramentas de extração de conhecimento automático para ajudar os investigadores a lidar com o crescimento exponencial de informação anteriormente falado.Esta dissertação tem como objetivo desenvolver uma ferramenta para extrair automáticamente processos biológicos presentes em textos, usando tarefas de BTM como Named Entity Recognition (NER), ontologias e classificação, integrando também diferentes ferramentas de descoberta de informação em textos - como por exemplo Genia Tagger (dá-nos informação como formas base de palavras, lema, chunks, marcação da fala e NER) e UMLS Metamap (um programa desenvolvido para descobrir conceitos do UMLS Metathesaurus referidos em textos) - para fazer diferentes experiências e descobrir qual a melhor forma de combinar tudo isto numa ferramenta para extrair processos biológicos presentes em textos automaticamente e ajudar os investigadores na área das Ciências da Vida a encontrarem informação relevante para os seus estudos de forma mais rápida.
Subject: Engenharia electrotécnica, electrónica e informática
Electrical engineering, Electronic engineering, Information engineering
TID identifier : 201803895
URI: http://hdl.handle.net/10216/106604
Document Type: Dissertação
Rights: openAccess
Appears in Collections:FEUP - Dissertação

Files in This Item:
File Description SizeFormat 
206290.pdfIdentification of Biological Processes439.87 kBAdobe PDFThumbnail
View/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.