Please use this identifier to cite or link to this item:
http://hdl.handle.net/11422/29139
| Type: | Dissertação |
| Title: | Automated detection of vulnerability exploitation in underground hacking forums |
| Author(s)/Inventor(s): | Moreno Vera, Felipe Adrian |
| Advisor: | Menasché, Daniel Sadoc |
| Abstract: | Este trabalho propõe uma abordagem baseada em aprendizado de máquina para identificar e classificar a exploração de vulnerabilidades, o escopo e o impacto de softwares maliciosos por meio do monitoramento de fóruns de hackers clandestinos. O volume crescente de postagens discutindo a exploração de vulnerabilidades exige uma abordagem automatizada para processar tópicos e postagens que possam acionar alarmes com base em seu conteúdo. Para ilustrar o sistema proposto, utilizamos o conjunto de dados CrimeBB, composto por dados extraídos de vários fóruns clandestinos, e desenvolvemos um modelo de aprendizado de máquina supervisionado capaz de filtrar tópicos que citam CVEs e rotulá-los como prova de conceito (PoC), armamento (Weaponization), exploração (Exploitation), entre outros. Aplicamos técnicas de aprendizado de máquina e processamento de linguagem natural para pré-processar os textos e, em seguida, treinamos diversos modelos lineares e não lineares. Para avaliar a eficácia e a precisão dos modelos e comparar os resultados, utilizamos as métricas de exatidão (accuracy), precisão (precision) e recuperação (recall). Além disso, para maior compreensão e explicação sobre o motivo de o modelo diferenciar entre as classes, utilizamos métodos de explicação de modelos para determinar a relevância das palavras nas predições. No geral, este trabalho destaca as diferenças entre as naturezas das postagens rotuladas e sua importância na análise de vulnerabilidades. |
| Abstract: | This work proposes a machine learning-based approach to identify and classify vulnerability exploitation, the scope, and the impact of malicious software through the monitoring of underground hacker forums. The growing volume of posts discussing vulnerability exploitation demands an automated approach to process topics and posts that may trigger alarms based on their content. To illustrate the proposed system, we used the CrimeBB dataset, which contains data extracted from various underground forums, and developed a supervised machine learning model capable of filtering topics that cite CVEs and labelingthem as proof of concept (PoC), weaponization, exploitation, among others. We applied machine learning and natural language processing techniques to preprocess the texts and then trained several linear and non-linear models. To evaluate the models’ effectiveness and accuracy and compare results, we used metrics such as accuracy, precision, and recall. Additionally, to gain a better understanding and explanation of why the model can differentiate between classes, we employed model explanation methods to determine the relevance of words in predictions. Overall, this work highlights the differences in the nature of the labeled posts and their importance in vulnerability analysis. |
| Keywords: | Cibersegurança Fóruns online Mineração de dados Processamento de linguagem natural Segurança da informação Modelos de linguagem Interpretabilidade Cybersecurity Online forums Data mining Natural language processing Information security Language model Interpretability |
| Subject CNPq: | CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
| Program: | Programa de Pós-Graduação em Informática |
| Production unit: | Instituto de Computação |
| Publisher: | Universidade Federal do Rio de Janeiro |
| Issue Date: | 2-Dec-2024 |
| Publisher country: | Brasil |
| Language: | eng |
| Right access: | Acesso Aberto |
| Appears in Collections: | Informática |
Files in This Item:
| File | Description | Size | Format | |
|---|---|---|---|---|
| FAMorenoVera.pdf | 2.24 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.