Please use this identifier to cite or link to this item: https://hdl.handle.net/10216/85701
Author(s): Diogo Moutinho de Almeida
Title: Malware classification on time series data through machine learning
Issue Date: 2016-07-12
Abstract: Malware classification can be a challenge considering the great amount of variety and increasing emergence of malware, as well as, available classification methods. For this reason, it is not unusual for a file to be considered a different type of malicious file by different classifiers. In fact, an assignment made by a single classifier might change through time, as a consequence of methods refinements or new discoveries.When using multiple independent classifiers, past classifications of a certain file might help on deciding on which one to trust. This dissertation aims at finding a way to facilitate this analysis by collecting historical data on files that already have assigned their final and last classification, and determine which machine learning algorithm can better predict a new file classification given this very same data. Besides the historical data, other characteristics shall be taken into account like: source of the file, filetype and filesize. The machine learning algorithms we have used are: C4.5, Random Forests, Multi-Layer Perceptron (MLP) and Long short-term memory (LSTM).It was possible with this approach to find an alternative way in finding the correct malware classification of a file, given a multiple number of classifiers, taking into account its classification history.
Description: A classificação de malware pode ser um desafio considerando o seu número actual e crescimento, bem como, os seus métodos de classificaçõa. Por esta razão, é comum para um ficheiro ter diferentes classificações perante múltiplos classificadores. Para além disso, uma atribuição feita por apenas um classificador pode mudar ao longo do tempo, consequência do melhoramente dos métodos de classificação ou de novas descobertas.Quando em posse de diferentes e independentes classificadores, classificações passadas de um determinado ficheiro podem influenciar em quem confiar. Esta dissertação tem como objectivo encontrar uma forma de ajudar esta análise juntando dados históricos de ficheiros cuja classificação é final, e determinar qual algoritmo de machine learning consegue prever melhor a classificação de um novo ficheiro. Para além dos dados históricos, outras características serão tidas em conta: a origem, tipo e tamanho do ficheiro. Os algoritmos de machine learning utilizados são: C4.5, Random Forests, Multi-Layer Perceptron (MLP) e Long short-term memory (LSTM).Espera-se que esta abordagem ofereça um método alternativo ou ajude na atribuição correcta de malware de um ficheiro, recorrendo a múltiplos classificadores e ao histórico de classificações.
Subject: Engenharia electrotécnica, electrónica e informática
Electrical engineering, Electronic engineering, Information engineering
Scientific areas: Ciências da engenharia e tecnologias::Engenharia electrotécnica, electrónica e informática
Engineering and technology::Electrical engineering, Electronic engineering, Information engineering
TID identifier: 201301636
URI: https://repositorio-aberto.up.pt/handle/10216/85701
Document Type: Dissertação
Rights: openAccess
License: https://creativecommons.org/licenses/by-nc/4.0/
Appears in Collections:FEUP - Dissertação

Files in This Item:
File Description SizeFormat 
149921.pdfMalware classification on time series data through machine learning714.29 kBAdobe PDFThumbnail
View/Open


This item is licensed under a Creative Commons License Creative Commons