Replicabilidade de datasets de rede a partir da reutilização de traces de pacotes
dissertacao_mestrado
RESUMO: Em geral, a aplicação de algoritmos de aprendizado de máquina em problemas de redes utiliza datasets gerados a partir de traces de pacotes. Estes datasets apresentam problemas relacionados à reprodutibilidade de seus experimentos e sua reprodução poderia permitir a geração de novas bases de dados e/ou a extensão deles com novas características. Este trabalho apresenta uma metodologia de geração de datasets de traces de pacotes, de forma a minimizar os problemas de reprodutibilidade identificados. A metodologia proposta para geração de datasets é baseada em critérios e etapas, identificados a partir da análise de datasets atuais e de ferramentas de replicação de tráfego abertas, de modo a facilitar a reprodutibilidade e replicabilidade de seus traces de pacotes. Diante das limitações, as ferramentas utilizadas apresentaram bons resultados na replicação de tráfegos específicos, tais como HTTP simples e de ataque SYN-Flood. A geração de novos conjunto de dados ou mesmo a extensão de datasets amplamente utilizados na literatura a partir da replicação dos traces de pacotes permite avaliar a relevância de novas métricas de interesse na solução de problemas na área de redes.
ABSTRACT: In general, the application of machine learning algorithms in network problems uses datasets generated from packet traces. These datasets present problems related to the reproducibility of their experiments and their reproduction could allow the generation of new datasets and/or their extension with new characteristics. This work presents a methodology for generating packet trace datasets, in order to minimize the identified reproducibility problems. The proposed methodology for generating datasets is based on criteria and steps, identified from the analysis of current datasets and opensource traffic replay tools, in order to facilitate the replicability of your packet traces. Given the limitations, the replay tools showed good results in the replay of specific traffics, such as simple HTTP and SYN-Flood attack. The generation of new datasets or even the extension of datasets widely used in the literature from the replication of packet traces allows evaluating the relevance of new metrics of interest in the solution of problems in the area of networks.
Redes Sociais