Utilize este identificador para referenciar este registo: https://hdl.handle.net/10216/85394
Autor(es): Hugo José Freixo Rodrigues
Título: Ferramenta para Text Mining em Textos completos
Data de publicação: 2016-07-27
Resumo: We live in a world in constant change where more and more people have unlimited access to the internet, where they can post their ideas. This means that there more and more texts available on the Web. These texts can be simple facebook posts or papers about various areas. With a large amount of texts, new techniques are needed to read and classify them quickly and effectively. Text Mining (TM) comes up to solve these problems. With this powerful tool it is possible to interpret and classify a huge amount of texts, in order to obtain useful information. Current TM approaches do not take advantage of structure of the texts. A text is seen as a bag of words, a set of unrelated words. This causes the TM algorithms become computationally heavy and their quality of information obtained can be substantially improved. There are different approaches of TM and several steps of preprocessing that can be applied to full text classification, but which methods that can get better results? Which steps must be applied so the final result is more complete? These are some questions that we address in this thesis.
Descrição: Vivemos num mundo em constante evolução onde cada vez mais pessoas têm acesso ilimitado à Internet, onde podem divulgar as suas ideias. Isto faz com que existam cada vez mais textos espalhados pela Web, sejam estes textos apenas posts no facebook ou artigos sobre as mais diversas áreas. Com uma quantidade de textos tão extensa são necessárias técnicas que permitam aceder e classificar estes textos de forma rápida e eficaz. É neste contexto que surge o Text Mining (TM). Com o conjunto de ferramentas poderosas que é o TM é possível interpretar e classificar uma enorme quantidade de textos, de forma a obter informação útil. Atualmente os algoritmos de TM tratam os textos sem considerar a sua estrutura. Um texto é interpretado pelo algoritmo de TM como um bag of words, um conjunto de palavras sem relação entre si. Isto faz com que os algoritmos de TM se tornem mais pesados, custosos e que a quantidade e qualidade da informação obtida não sejam os melhores possíveis. Existem diferentes abordagens de TM e vários passos de pré-processamento que podem ser aplicados à classificação de textos completos, mas quais as abordagens que poderão trazer melhores resultados? Quais os passos que devem ser aplicados para que o resultado final seja mais completo? Estas são algumas das questões que esta dissertação pretende responder.
Assunto: Engenharia electrotécnica, electrónica e informática
Electrical engineering, Electronic engineering, Information engineering
Áreas do conhecimento: Ciências da engenharia e tecnologias::Engenharia electrotécnica, electrónica e informática
Engineering and technology::Electrical engineering, Electronic engineering, Information engineering
Identificador TID: 201305011
URI: https://hdl.handle.net/10216/85394
Tipo de Documento: Dissertação
Condições de Acesso: openAccess
Licença: https://creativecommons.org/licenses/by-nc/4.0/
Aparece nas coleções:FEUP - Dissertação

Ficheiros deste registo:
Ficheiro Descrição TamanhoFormato 
143466.pdfFerramenta para Text Mining em Textos completos325.83 kBAdobe PDFThumbnail
Ver/Abrir


Este registo está protegido por Licença Creative Commons Creative Commons