Please use this identifier to cite or link to this item: http://hdl.handle.net/10216/83512
Author(s): Marta Carolina Madeira Bebiano
Title: Algoritmos incrementais para previsão de variáveis quantitativas usando dados de chamadas móveis
Issue Date: 2015-07-21
Abstract: The information flow that circulates nowadays in both local and transnational data networks is huge. That information originates, for example, in the media or as the result of users' everyday activities. The mass storage of information in massive databases, and at a increasing rate, creates growing difficulties for the organizations in how this information should be handled, but at the same time, it contains an hidden potential, often misunderstood and poorly acknowledged. With the emergence of this phenomenon of the growing accumulation of data, new problems and challenges have also arisen. How can one identify significant data, useful information and patterns of value amongst seemingly irrelevant information?In most areas information is constantly beeing stored, and, in this context, a new area of investigation, the Data Mining, has evolved over the last three decades.Telecommunication enterprises in particular have at their disposal millions of records of precious information which they could use to develop new services for their clients, that is, if they could find a clear way to use it properly. With that information they could perform several tasks like predicting the length of a call from the moment it begins, which is the goal of this study. This work intended to contribute to the knowledge of how to transform data coming from a big database into relevant information for businesses. Ways to add more value and knowledge to the available information, were searched for in order to boost businesses' profits.Any study in this area is rapidly confronted with a great difficulty, the analysis of an enormous amount of data, a problem of computer capacity in data processing. Difficulty lies not only in identifying useful hidden information but also in the necessity of processing that information in a reasonable ammount of time. Therefore the main goal of this project is to study and compare incremental algorithms for the prediction of the length of a call from the moment it begins, and identifying the best algorithms for this regression problem and included preprocessing tasks. It is a problem of supervised learning in which regression techniques are used.The following methods are used: distance based methods, k-Nearest Neighbor method, search based methods - decision trees, VFDT - Very Fast Decision Tree, and methods for heterogeneous and homogeneous ensembles, where several models are combined to make the best decisions. At the end of the study there will be used evaluation methods which will allow for the comparisso of the algorithms' efficiency. It is expected that through the results one can identify which method is the most efficient in predicting the length of a call, the expected precision for the prediction and which confidence interval the results fall within.
Description: O fluxo de informação gerado e que circula, hoje em dia, nas redes de dados, locais e transnacionais, é enorme. Essa informação tem origem, por exemplo, nos meios de comunicação e resulta da atividade quotidiana dos utilizadores. O registo em massa de informação em bases de dados diversas, de dimensão muitas vezes colossal, e a um ritmo permanente, cria nas organizações dificuldades crescentes de gestão dessa informação, mas ao mesmo tempo encerra um potencial de valor oculto, muitas vezes mal compreendido e mal explorado. Com o aparecimento deste fenómeno, crescente acumulação de dados, emergiram novos problemas e desafios. Como descobrir, no meio de dados aparentemente irrelevantes, os dados significantes, a informação útil, e os padrões de valor?Nas mais variadas áreas é guardada informação de forma quase contínua e, neste contexto, desenvolveu-se ao longo das últimas três décadas uma nova área de investigação, o Data Mining. Particularmente, as empresas de telecomunicações dispõem de milhões de registos com informação preciosa que poderiam utilizar, no sentido de prestar novos serviços aos clientes, isto se encontrassem uma forma clara de a utilizar. Com essa informação poderiam realizar diversas tarefas, como a previsão da duração de uma chamada quando esta se inicia, que constitui o objecto desta investigação. Com a elaboração deste trabalho pretendeu-se contribuir para o conhecimento do modo como transformar os dados, provenientes de uma grande base de dados, em informação relevante para as empresas Procura-se a forma de acrescentar mais valias e mais conhecimento à informação disponível, de forma a dar maior rentabilidade ao negócio.Qualquer investigação neste domínio, rapidamente se confronta com uma grande dificuldade, que consiste na análise dum imenso volume de dados, que coloca um problema de complexidade computacional. A dificuldade deriva não apenas da necessidade de descobrir informação útil escondida, mas também da necessidade de processar essa informação em tempo útil. Assim, o principal objetivo deste projeto passou por estudar e comparar algoritmos incrementais para previsão da duração de uma chamada quando esta se inicia e identificar os melhores algoritmos que se adequem a problemas de regressão. Trata-se de um problema de aprendizagem supervisionada na qual são utilizadas técnicas de regressão. São usados: métodos baseados em distâncias, k-Nearest Neighbor, métodos baseados em procura - árvores de decisão, VFDT - Very Fast Decision Tree, e métodos de ensemble homogéneo e heterogéneo, onde vários modelos são combinados para tomar as melhores decisões. Na investigação prática usaram-se métodos de avaliação que comparam a eficiência dos algoritmos.
Subject: Engenharia electrotécnica, electrónica e informática
Electrical engineering, Electronic engineering, Information engineering
TID identifier : 201313774
URI: http://hdl.handle.net/10216/83512
Document Type: Dissertação
Rights: openAccess
License: https://creativecommons.org/licenses/by-nc/4.0/
Appears in Collections:FEUP - Dissertação

Files in This Item:
File Description SizeFormat 
35999.pdfAnálise de dados de chamadas móveis_ei101451.6 MBAdobe PDFThumbnail
View/Open


This item is licensed under a Creative Commons License Creative Commons