UM MODELO BAYESIANO BASEADO EM ALGORITMOS BIO-INSPIRADOS PARA CLASSIFICAÇÃO BINÁRIA

Carregando...
Imagem de Miniatura
Citações na Scopus
Tipo de produção
Trabalho de Conclusão de Curso
Data
2020-06-17
Autores
RICARDO MORELLO SANTOS
THYAGO MELO DOS SANTOS
Orientador
Paulo Sérgio Silva Rodrigues
Periódico
Título da Revista
ISSN da Revista
Título de Volume
Citação
Texto completo (DOI)
Palavras-chave
Aprendizado supervisionado,Mineração de dados,Classificação binária,Teorema de Bayes,Algoritmos bio-inspirados
Resumo
Nos últimos anos, nota-se o crescente aumento na geração de dados digitais, sobretudo por conta da consolidação da internet como meio de comunicação. Proporcionalmente, cresce também a quantidade de algoritmos e metodologias propostas para mineração de dados e identificação de tendências ou padrões, hoje uma tarefa inviável à capacidade analítica humana. No entanto, de acordo com a literatura, estas técnicas apresentam performance diferente quando aplicadas em problemas ou bases de dados diferentes. Assim, este trabalho propõe um modelo bayesiano que agrega a saída de diferentes algoritmos de classificação, ponderando-as de maneira a priorizar o classificador com melhor performance para o problema em questão. Foram aplicados e comparados algoritmos consolidados na literatura, considerando dois conjuntos. O primeiro deles envolve o Supported Vector Machine (SVM) e o XGBoost, enquanto o segundo compreende SVM, Tensorflow e uma rede neural do tipo Multilayer Perceptron (MLP). Para otimização do processo combinatório de ponderação dos classificadores no modelo proposto, foram também aplicados e comparados dois algoritmos bio-inspirados, Firefly e Particle Swarm Optimization. A metodologia foi aplicada em três bases de dados de classificação binária, sendo duas para predição da rotatividade de clientes, Telco Customer Churn e Churn in Telecom’s Dataset, e uma terceira base para predição de doenças cardiovasculares, Cardiovascular Disease Dataset. Os resultados obtidos mostram que o modelo proposto priorizou os classificadores com maior performance, portanto preservando a saída com maior assertividade, sobretudo na base de dados Telco Customer Churn. Neste caso, a despeito da maior variação nas classificações, o método proposto apresentou estabilidade na classificação. Nas demais bases de dados, quando os classificadores possuem performance similar, o modelo proposto apresentou assertividade também similar aos demais.