Please use this identifier to cite or link to this item: https://hdl.handle.net/10216/85394
Author(s): Hugo José Freixo Rodrigues
Title: Ferramenta para Text Mining em Textos completos
Issue Date: 2016-07-27
Abstract: We live in a world in constant change where more and more people have unlimited access tothe internet, where they can post their ideas. This means that there more and more texts availableon the Web. These texts can be simple facebook posts or papers about various areas. With a largeamount of texts, new techniques are needed to read and classify them quickly and effectively. TextMining (TM) comes up to solve these problems.With this powerful tool it is possible to interpret and classify a huge amount of texts, in order toobtain useful information. Current TM approaches do not take advantage of structure of the texts.A text is seen as a bag of words, a set of unrelated words. This causes the TM algorithms becomecomputationally heavy and their quality of information obtained can be substantially improved.There are different approaches of TM and several steps of preprocessing that can be applied tofull text classification, but which methods that can get better results? Which steps must be appliedso the final result is more complete?These are some questions that we address in this thesis.
Description: Vivemos num mundo em constante evolução onde cada vez mais pessoas têm acesso ilimitadoà Internet, onde podem divulgar as suas ideias. Isto faz com que existam cada vez mais textosespalhados pela Web, sejam estes textos apenas posts no facebook ou artigos sobre as mais diversasáreas. Com uma quantidade de textos tão extensa são necessárias técnicas que permitam aceder eclassificar estes textos de forma rápida e eficaz. É neste contexto que surge o Text Mining (TM).Com o conjunto de ferramentas poderosas que é o TM é possível interpretar e classificar umaenorme quantidade de textos, de forma a obter informação útil. Atualmente os algoritmos deTM tratam os textos sem considerar a sua estrutura. Um texto é interpretado pelo algoritmo deTM como um bag of words, um conjunto de palavras sem relação entre si. Isto faz com que osalgoritmos de TM se tornem mais pesados, custosos e que a quantidade e qualidade da informaçãoobtida não sejam os melhores possíveis.Existem diferentes abordagens de TM e vários passos de pré-processamento que podem seraplicados à classificação de textos completos, mas quais as abordagens que poderão trazer melhoresresultados? Quais os passos que devem ser aplicados para que o resultado final seja maiscompleto?Estas são algumas das questões que esta dissertação pretende responder.
Subject: Engenharia electrotécnica, electrónica e informática
Electrical engineering, Electronic engineering, Information engineering
Scientific areas: Ciências da engenharia e tecnologias::Engenharia electrotécnica, electrónica e informática
Engineering and technology::Electrical engineering, Electronic engineering, Information engineering
TID identifier: 201305011
URI: https://repositorio-aberto.up.pt/handle/10216/85394
Document Type: Dissertação
Rights: openAccess
License: https://creativecommons.org/licenses/by-nc/4.0/
Appears in Collections:FEUP - Dissertação

Files in This Item:
File Description SizeFormat 
143466.pdfFerramenta para Text Mining em Textos completos325.83 kBAdobe PDFThumbnail
View/Open


This item is licensed under a Creative Commons License Creative Commons