Do tweet à ameaça:

Carregando...
Imagem de Miniatura
Citações na Scopus
Tipo de produção
Trabalho de Conclusão de Curso
Data
2023-12-05
Autores
Oliveira, Hugo Linhares
Cezarino, João Pedro Rosa
Lacerda, Thales de Oliveira
Oliveira, Vitor Martins
Orientador
Ferreira, Charles Henrique Porto
Periódico
Título da Revista
ISSN da Revista
Título de Volume
Citação
Texto completo (DOI)
Palavras-chave
segurança cibernética,ataques cibernéticos,redes sociais,machine learning,processamento de texto,rastreamento de dados,análise de sentimentos,cybersecurity,cyber attacks,social networks,machine learning,text processing,data tracking,sentiment analysis
Resumo
Com o aumento dos ataques cibernéticos, a segurança digital torna-se crucial. Redes sociais, especialmente o Twitter, são plataformas onde hackers expressam intenções. Este trabalho propõe um método de extração e análise de dados dessas redes usando técnicas de Machine Learning e pré-processamento de textos para identificar padrões indicativos de ameaças cibernéticas. Diante desse desafio, são apresentadas duas abordagens: na primeira, há a combinação de sentimentos, entidades e similaridade com palavras-chave de segurança da informação em uma única representação vetorial, juntamente com os resultados de um algoritmo de classificação. Já na segunda abordagem, é utilizado um score ponderado para cada atributo do mecanismo de análise, visando uma abordagem mais refinada na detecção de possíveis ameaças. Os resultados destacam a importância da análise de entidades na melhoria da precisão do modelo, onde identificou-se que datas e números são mais prevalentes em comunicações que contêm ameaças. Além disso, os resultados obtidos questionam a eficácia da análise de sentimentos como indicador confiável, desafiando a premissa de que a polaridade do sentimento é um sinal seguro de conteúdo mal-intencionado na identificação de tweets potencialmente perigosos. Neste cenário, o algoritmo Random Forest se destacou, alcançando uma acurácia de até 79,59% na classificação de tweets como ameaças, contra 79,25% de baseline.
With the increase in cyber attacks, digital security becomes crucial. Social networks, especially Twitter, are platforms where hackers express their intentions. This work proposes a method for extracting and analyzing data from these networks using Machine Learning techniques and text preprocessing to identify patterns indicative of cyber threats. In the face of this challenge, two approaches are presented: the first combines sentiment analysis, entity recognition, and similarity with information security keywords into a single vector representation, along with the results of a classification algorithm. The second approach uses a weighted score for each attribute of the analysis mechanism, aiming for a more refined approach in detecting potential threats. The results highlight the importance of entity analysis in improving the model's accuracy, where it was found that dates and numbers are more prevalent in communications containing threats. Moreover, the obtained results challenge the effectiveness of sentiment analysis as a reliable indicator, defying the premise that sentiment polarity is a sure sign of malicious content in the identification of potentially dangerous tweets. In this scenario, the Random Forest algorithm stood out, achieving an accuracy of up to 79.59% in classifying tweets as threats, compared to a 79.25% baseline.