Please use this identifier to cite or link to this item: https://hdl.handle.net/10216/83538
Author(s): Henrique Manuel Martins Moreira Teixeira de Sousa
Title: Caraterização de um corpus jornalístico português
Issue Date: 2015-07-20
Abstract: In this dissertation we organize and characterize a news article archive from the portuguese online journal JornalismoPortoNet (JPN), creating a text corpus with content from several authors and topics. A corpus represents a group of texts in which one can perform statistical analysis or hypothesis testing, mainly in the field of linguistics. The growing computing power eases the processing of large corpora (searching, treatment, selection, etc\.). This corpus has the objective of being a true representation of the jornalistic text practised by JPN, collecting titles, subtitles, authors, related news, categories and dates of publishing, while including a small part refering to the reader's opinion (news comments). The corpus will be annotated in respect to the POS tags used and the named entities mentioned in the text. Following this, an deep analysis will be performed about the morphological and categorical composition of the news articles, including research about relationships between news and the differences between the huge array of authors with varying experience. There will also be a characterization in respect to the named entities in the text, categorizing them as people, locals or organizations and revealing the relationship network between these entities. Finally, the public's reception to the jornalistic material, be it in page visualizations or readers' comments.
Description: Nesta dissertação procede-se à organização e caracterização de um arquivo de artigos de notícias do jornal online português JornalismoPortoNet (JPN), criando um corpus textual com conteúdo de vários autores e tópicos. Um corpus representa um conjunto de textos no qual se pode efetuar uma análise estatística ou verificação de hipóteses, sobretudo na área da linguística. O crescente poder computacional facilita o processamento de grandes corpora (pesquisa, tratamento, seleção, etc\.). Este corpus tem como objetivo a ser uma representação fiel do texto jornalístico praticado pelo JPN, colecionando os títulos, subtítulos, autores, notícias relacionadas, categorias e datas de publicação, para além de incluir uma pequena parte referente à opinião do leitor (comentários às notícias). O corpus será anotado quanto às partes da fala usadas e às entidades mencionadas nos textos. Posteriormente, será realizada uma análise aprofundada sobre a composição morfológica e categórica dos artigos de notícias, bem como uma pesquisa sobre os relacionamentos entre notícias e as diferenças entre o grande leque de autores de experiência variada. Será ainda efetuada uma caracterização quanto às entidades mencionadas no texto, categorizando-as como pessoas, locais ou organizações e expondo a rede de relacionamentos entre estas entidades. Finalmente será também analisada a receção do público face ao conteúdo jornalístico, tanto em visualizações como em comentários dos leitores.
Subject: Engenharia electrotécnica, electrónica e informática
Electrical engineering, Electronic engineering, Information engineering
Scientific areas: Ciências da engenharia e tecnologias::Engenharia electrotécnica, electrónica e informática
Engineering and technology::Electrical engineering, Electronic engineering, Information engineering
TID identifier: 201304805
URI: https://repositorio-aberto.up.pt/handle/10216/83538
Document Type: Dissertação
Rights: openAccess
License: https://creativecommons.org/licenses/by-nc/4.0/
Appears in Collections:FEUP - Dissertação

Files in This Item:
File Description SizeFormat 
35993.pdfCaracterízação de um corpus jornalístico português2.97 MBAdobe PDFThumbnail
View/Open


This item is licensed under a Creative Commons License Creative Commons