Please use this identifier to cite or link to this item: https://hdl.handle.net/10216/88362
Author(s): André Ricardo Azevedo Gonçalves da Silva
Title: Email Classification: a case study
Issue Date: 2016-07-06
Abstract: Internet dependance on email has been frequent since its early days. In the present days, electronic mail is widely used in a professional and personal context. Although this service was developed as a way of communication, nowadays it serves many other purposes. The majority of services available online will require an email address in order to authenticate or as a bridge of communication between the user and the service. The average number of emails sent and received, by the average user, is in the order of the hundreds per day, and these emails can be of varying categories: social, professional, notifications, marketing, transactional, emails which warrant no response, emails to send files, emails requiring response, among others with different purposes. This originates an information overload problem, that proves difficult to be completely solved manually by the email address owner. Therefore, there is a growing need to develop systems that can automatically learn and recommend users effective ways to organize their email information, which can aggregate emails into smaller groups to be easily interpreted by the user, expediting the process of reading and consulting the mailbox. To alleviate this information overload problem there are several possible approaches and techniques, such as machine learning to help on email classification and clustering, in order to find new subsets of emails in the massive inboxes we all have, now or in the future. After a careful review of the state of the art on email classification and grouping techniques, this work will enumerate and select the most effective approaches for the problem at hand, and will adapt them to a very concrete case study, a desktop email client under development at Mailcube Lda. The approach in mind will follow a competitive learning paradigm, which means that emails will compete with each other in order to find subsets in the inbox. It will also follow a reinforcement learning paradigm to add sensitiveness to user profile and interaction history. At the end, the resulting system is expected to suggest the user to organize his inbox into relevant groups of emails, based on learning users' interactions and continuously adapting to the arrival of new emails, improving the overall user experience and saving precious time for the users.
Description: A dependência da Internet no email têm se mantido constante desde os seus dias iniciais. No presente, o correio eletrónico é bastante utilizado tanto em contexto pessoal, como profissional. Embora o serviço tenha sido desenvolvido com o objetivo de servir como um meio de comunicação, hoje em dia este serve muitos outros propósitos. A maioria dos serviços disponíveis online utilizam o endereço de email como meio de autenticação ou como uma ponte de comunicação entre o utilizador e o serviço. Em média, o número de emails enviados e recebidos, pelo utilizador corrente, encontra- se na ordem das centenas por dia e estes emails podem ser das mais diversas categorias: social, profissional, notificações, publicidade, transações, emails que não requerem resposta, emails como meio para enviar ficheiros, emails que requerem resposta, entre outros com diferentes propósitos. Toda esta diversidade encontra-se na origem de um problema de informação excessiva, difícil de resolver manualmente pela pessoa responsável pelo endereço eletrónico. Como tal, existe uma crescente necessidade de desenvolver sistemas que sejam dotados de aprendizagem automática, capazes de recomendar ao utilizador formas eficientes de organizar a informação presente nas suas contas de email e ainda agregar os emails em grupos mais pequenos de forma a facilitar a sua interpretação por parte do utilizador, agilizando todo o processo de leitura e consulta da caixa de correio eletrónica. Para atenuar o problema de informação excessiva, existe diversas abordagens e técnicas, como aprendizagem de máquina, para ajudar na classificação e no agrupamento dos emails, de forma a encontrar novos grupos de emails na massiva caixa de correio que todos temos, agora e no futuro. A abordagem em mente, seguirá um paradigma de aprendizagem por competição em que os emails competem entre eles, de forma a sobressair subgrupos na caixa de correio. A estratégia também seguirá um paradigma de aprendizagem por reforço que adicionará, ao sistema, sensibilidade ao perfil do utilizador e ao seu histórico de interação. No fim, é esperado que o sistema criado sugira ao utilizador como organizar a caixa de correio em grupos de emails de interesse, baseados no conteúdo dos emails e na interação do utilizador, e ainda tenha capacidade de adaptação continua aos emails que vão entrando na conta. Com este sistema, é expetável que a experiência de utilização melhore, rentabilizando o tempo dos utilizadores.
Subject: Ciências da computação e da informação
Computer and information sciences
Scientific areas: Ciências exactas e naturais::Ciências da computação e da informação
Natural sciences::Computer and information sciences
TID identifier: 201296845
URI: https://hdl.handle.net/10216/88362
Document Type: Dissertação
Rights: openAccess
Appears in Collections:FEUP - Dissertação

Files in This Item:
File Description SizeFormat 
150154.pdfEmail Classification: a case study1.74 MBAdobe PDFThumbnail
View/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.