Utilize este identificador para referenciar este registo: https://hdl.handle.net/10216/83538
Autor(es): Henrique Manuel Martins Moreira Teixeira de Sousa
Título: Caraterização de um corpus jornalístico português
Data de publicação: 2015-07-20
Resumo: In this dissertation we organize and characterize a news article archive from the portuguese online journal JornalismoPortoNet (JPN), creating a text corpus with content from several authors and topics. A corpus represents a group of texts in which one can perform statistical analysis or hypothesis testing, mainly in the field of linguistics. The growing computing power eases the processing of large corpora (searching, treatment, selection, etc\.). This corpus has the objective of being a true representation of the jornalistic text practised by JPN, collecting titles, subtitles, authors, related news, categories and dates of publishing, while including a small part refering to the reader's opinion (news comments). The corpus will be annotated in respect to the POS tags used and the named entities mentioned in the text. Following this, an deep analysis will be performed about the morphological and categorical composition of the news articles, including research about relationships between news and the differences between the huge array of authors with varying experience. There will also be a characterization in respect to the named entities in the text, categorizing them as people, locals or organizations and revealing the relationship network between these entities. Finally, the public's reception to the jornalistic material, be it in page visualizations or readers' comments.
Descrição: Nesta dissertação procede-se à organização e caracterização de um arquivo de artigos de notícias do jornal online português JornalismoPortoNet (JPN), criando um corpus textual com conteúdo de vários autores e tópicos. Um corpus representa um conjunto de textos no qual se pode efetuar uma análise estatística ou verificação de hipóteses, sobretudo na área da linguística. O crescente poder computacional facilita o processamento de grandes corpora (pesquisa, tratamento, seleção, etc\.). Este corpus tem como objetivo a ser uma representação fiel do texto jornalístico praticado pelo JPN, colecionando os títulos, subtítulos, autores, notícias relacionadas, categorias e datas de publicação, para além de incluir uma pequena parte referente à opinião do leitor (comentários às notícias). O corpus será anotado quanto às partes da fala usadas e às entidades mencionadas nos textos. Posteriormente, será realizada uma análise aprofundada sobre a composição morfológica e categórica dos artigos de notícias, bem como uma pesquisa sobre os relacionamentos entre notícias e as diferenças entre o grande leque de autores de experiência variada. Será ainda efetuada uma caracterização quanto às entidades mencionadas no texto, categorizando-as como pessoas, locais ou organizações e expondo a rede de relacionamentos entre estas entidades. Finalmente será também analisada a receção do público face ao conteúdo jornalístico, tanto em visualizações como em comentários dos leitores.
Assunto: Engenharia electrotécnica, electrónica e informática
Electrical engineering, Electronic engineering, Information engineering
Áreas do conhecimento: Ciências da engenharia e tecnologias::Engenharia electrotécnica, electrónica e informática
Engineering and technology::Electrical engineering, Electronic engineering, Information engineering
Identificador TID: 201304805
URI: https://hdl.handle.net/10216/83538
Tipo de Documento: Dissertação
Condições de Acesso: openAccess
Licença: https://creativecommons.org/licenses/by-nc/4.0/
Aparece nas coleções:FEUP - Dissertação

Ficheiros deste registo:
Ficheiro Descrição TamanhoFormato 
35993.pdfCaracterízação de um corpus jornalístico português2.97 MBAdobe PDFThumbnail
Ver/Abrir


Este registo está protegido por Licença Creative Commons Creative Commons