Please use this identifier to cite or link to this item: https://hdl.handle.net/10216/120635
Author(s): Silva, Maria de Fátima Henriques da
Silvano, Maria da Purificação
Leal, António
Oliveira, Fátima
Brazdil, Pavel
Cordeiro, João
Oliveira, Débora
Title: Análise de sentimento em artigos de opinião
Issue Date: 2018
Abstract: The present study, which is developed in the interface between linguistics andcomputer science within the framework of sentiment analysis, aims at making a computationalanalysis of opinion articles in the area of economics and finance. The main objectives of thestudy are: i) to determine the semantic orientation of text segments that express opinion byannotating the polarity (positive or negative) and the strength (scale from -3 to 3) of nounsand adjectives, and ii) to verify if a specific lexicon for the area of economics and finance hasadvantages in automatic annotation of sentiment over a general lexicon. To achieve theseobjectives, a corpus of 45 texts was selected and analyzed in 2 phases, by annotators withdifferent training. First, a sample of 10 texts was annotated by linguists, co-authors of thispaper, with the objective of developing a linguistic annotation model to ascertain the polarityand strength of words in opinion articles and extract the relevant words for this area of study.Then, a set of 35 texts was annotated by university students, replicating the annotation modeldeveloped during the first phase. Based on the linguistic annotation, the computer science teamtried to establish to what extent a general sentiment lexicon for Portuguese - SentiLex - wassufficient to extract the sentiment of a sentence in a satisfactory manner or whether EconoLex,a specific sentiment lexicon, would be more efficient. The specific lexicon includes terms andmultiword expressions that are relevant to the area of economics and finance and to Portugueselanguage, and it was developed by the authors of this study. The data was analyzed accordingto a blending methodology, qualitative and quantitative. The results of the analysis allow usto consider the following items as contributes of this study: i) the development of a linguisticannotation model for the analysis of the polarity and strength of the lexicon, especially of nounsand adjectives; ii) the key role, though not exclusive, of the adjectives to determine the polarityof opinion segments of the corpus articles; iii) the creation of a new specific sentiment lexiconfor Portuguese in the area of economics and finance; iv) the improvement of the computationalperformance of EconoLex⨁SentiLex in relation to SentiLex regarding the performance inautomatic annotation of sentiment. In spite of these positive results, there are some limitations,which we intend to overcome in the continuity of this interdisciplinary work, namely a moredetailed linguistic analysis of the word classes that we studied, the consideration of otherelements/ linguistic structures that are essential to ascertain the sentiment in NP/sentence, theextension of the corpus, the expansion of the specific lexicon of the area of economics andfinance and the improvement of automatic methods for identifying evaluative words in texts ofopinion and for assigning them polarity and strength.
Description: O estudo apresentado realiza-se na interface entre a linguística e as ciênciasda computação, tendo como objetivo fazer a análise computacional de artigos de opiniãona área da economia e finanças, seguindo o quadro teórico da análise de sentimento. Osprincipais objetivos do trabalho são i) determinar a orientação do sentimento, positivo ounegativo, e a intensidade dessa orientação através da anotação da polaridade do léxico, comincidência nos nomes e adjetivos, nos segmentos em que ocorre a expressão da opinião, eii) verificar se um léxico específico para a área de economia e finanças tem vantagens naatribuição automática de sentimento sobre um léxico geral. Para atingir esses objetivos, foi selecionado um corpus de 45 textos, analisado em duas fases por anotadores com formaçãodistinta. Primeiro, uma amostra de 10 textos foi obtida e anotada pelos investigadores da áreade linguística, coautores deste artigo, com o objetivo de desenvolver um modelo linguísticopara determinar a orientação e intensidade da polaridade de termos em artigos de opiniãoe extrair termos de léxico relevantes para esta área de estudo. Em seguida, um conjunto de35 textos foi anotado por estudantes universitários, seguindo o método utilizado na primeiraamostra. Com base na anotação linguística, a equipa das ciências da computação procuroudeterminar até que ponto um léxico de sentimento geral para a língua portuguesa - SentiLex - ésuficiente para caracterizar o sentimento de uma frase de maneira satisfatória ou se o EconoLex,um léxico específico de sentimento, seria mais eficaz. O léxico específico inclui termos eexpressões multipalavra relevantes para o domínio da economia e finanças e para a línguaportuguesa, e foi elaborado pelos autores deste estudo. Os dados foram analisados usando umametodologia mista, qualitativa e quantitativa. Os resultados obtidos permitem-nos consideraros seguintes itens como contributos desta investigação: i) a elaboração do modelo de anotaçãolinguística adotado para a análise da orientação e da intensidade da polaridade do léxico, emespecial dos nomes e adjetivos; ii) o papel central, ainda que não exclusivo, dos adjetivos paraa determinação da polaridade do sentimento nos segmentos opinativos dos artigos do corpus;iii) o desenvolvimento de um novo léxico de sentimento específico português para a área daeconomia e finanças; iv) a melhoria do desempenho computacional do EconoLex⨁SentiLexem relação ao SentiLex no que se refere ao desempenho na caracterização automática desentimento. Apesar destes resultados positivos, há algumas limitações que constituem oselementos a desenvolver na continuidade deste trabalho interdisciplinar, nomeadamente aanálise linguística mais detalhada das classes gramaticais estudadas, a consideração de outroselementos/estruturas linguísticas determinantes para a caracterização do sentimento em SN/frase, o alargamento do corpus, o aumento do léxico específico do domínio e a afinaçãodos métodos automáticos de identificação de termos de sentimento em textos de opinião edeterminação da sua intensidade.
Subject: Linguística
Linguistics
URI: https://hdl.handle.net/10216/120635
Document Type: Artigo em Revista Científica Nacional
Rights: openAccess
Appears in Collections:FEP - Artigo em Revista Científica Nacional
FLUP - Artigo em Revista Científica Nacional

Files in This Item:
File Description SizeFormat 
336950.pdf312.49 kBAdobe PDFThumbnail
View/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.