Please use this identifier to cite or link to this item: https://hdl.handle.net/10216/106475
Author(s): João Ricardo Pintas Soares
Title: Statistical Language Models applied to News Generation
Issue Date: 2017-07-07
Abstract: Natural Language Generation (NLG) is a subfield of Artificial Intelligence. Its main goal is to produce understandable text in natural language, from a non-linguistic data input.Automated News Generation is a promising subject in the area of Computational Journalism, which uses NLG to create tools that helps journalists in the news production, automating some steps. These tools need a large amount of structured data as input and, for this reason, sports is a very natural subject to use, because the data is very well organized. The automatization of steps, in the news production, brings benefits to journalists, namely the tools can summarize data and make it readable instantly. Then they just have to adjust it, making the process of production a lot faster. The need for this agile process was the main motivation of this dissertation. The goal of this dissertation is to implement an Automated News Generation algorithm with the collaboration of ZOS, Lda. who owns the zerozero.pt project, an online social media publisher with one of the largest football databases in the world. They will provide a dataset for exploration and research in this field. This dissertation continues the work done by João Aires, in 2016, when he wrote a dissertation about this same topic. In this dissertation will be used a different approach to address the problem.The primary objective is to use Statistical Language Models to generate news from scratch, applying them to a system where the user can generate sentences about a specific match.Zerozero.pt saves data of more than 6000 matches per week and produces news for an average of 100 games per week. After a manual analysis of a part of that data, was decided that a news piece would be divided in 4 parts: Introduction, Goals, Sent offs and Conclusion. With the creation of Statistical Language Models for each part it is possible to summarize each match, making it easier to use this large amount of structured data and consequently increase the journalist's productivity.The evaluation of the system will be done using manual evaluation such as inquiries. This way, it will be possible to analyze and discuss the obtained results.
Description: Geração de Linguagem Natural (GLN) é um subcampo da Inteligência Artificial. O seu principal objetivo é produzir texto percetível em linguagem natural, a partir de dados de entrada não linguísticos.Geração Automática de Notícias é um campo promissor na área de Jornalismo Computacional, que usa GLN para criar ferramentas que ajudam os jornalistas na produção de notícias, automatizando alguns passos. Estas ferramentas precisam de uma grande quantidade de dados estruturados como entrada e, por esta razão, desporto é um tema natural a abordar pois tem dados bem organizados. A automatização de passos, na produção de notícias, traz benefícios para os jornalistas, nomeadamente as ferramentas podem sumarizar dados e transformá-los em texto percetível instantaneamente. Seguidamente apenas tem de ser ajustado, acelerando bastante o processo de produção. A necessidade de um processo mais rápido foi a principal motivação desta dissertação.A finalidade desta dissertação é implementar um algoritmo de Geração Automática de Notícias com a colaboração da ZOS, Lda. que é proprietária do projeto zerozero.pt, um jornal online com uma das maiores bases de dados do mundo. O zerozero.pt vai fornecer um conjunto de dados para exploração e investigação nesta área. Esta dissertação continua o trabalho de João Aires, em 2016, quando escreveu uma dissertação acerca deste mesmo tópico. Nesta dissertação vai ser usada uma abordagem diferente para abordar o problema.O objetivo principal é usar Modelos de Linguagem Estatísticos para gerar notícias de raiz, aplicando-os a um sistema onde o utilizador pode gerar frases relativas a um determinado jogo.O zerozero.pt regista dados de mais de 6000 jogos por semana produzindo notícias de uma média de 100 desses jogos. Após uma análise manual de parte desses dados, foi decidido que uma notícia seria dividida em 4 partes: Introdução, Golos, Expulsões e Conclusão. Com a criação de Modelos de Linguagem Estatísticos, para cada uma dessas partes, é possível sumarizar cada jogo, tornando mais fácil o uso desta grande quantidade de dados estruturados e consequentemente aumentar a produtividade dos jornalistas.A avaliação do sistema será feita usando avaliação manual, tal como inquéritos. Desta forma, será possível analisar e discutir os resultados obtidos.
Subject: Engenharia electrotécnica, electrónica e informática
Electrical engineering, Electronic engineering, Information engineering
Scientific areas: Ciências da engenharia e tecnologias::Engenharia electrotécnica, electrónica e informática
Engineering and technology::Electrical engineering, Electronic engineering, Information engineering
TID identifier: 201799499
URI: https://repositorio-aberto.up.pt/handle/10216/106475
Document Type: Dissertação
Rights: openAccess
Appears in Collections:FEUP - Dissertação

Files in This Item:
File Description SizeFormat 
205581.pdfStatistical Language Models applied to News Generation2.2 MBAdobe PDFThumbnail
View/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.