UM MODELO BAYESIANO BASEADO EM ALGORITMOS BIO-INSPIRADOS PARA CLASSIFICAÇÃO BINÁRIA
Carregando...
Arquivos
Citações na Scopus
Tipo de produção
Trabalho de Conclusão de Curso
Data
2020-06-17
Autores
RICARDO MORELLO SANTOS
THYAGO MELO DOS SANTOS
THYAGO MELO DOS SANTOS
Orientador
Paulo Sérgio Silva Rodrigues
Periódico
Título da Revista
ISSN da Revista
Título de Volume
Citação
Texto completo (DOI)
Palavras-chave
Aprendizado supervisionado,Mineração de dados,Classificação binária,Teorema de Bayes,Algoritmos bio-inspirados
Resumo
Nos últimos anos, nota-se o crescente aumento na geração de dados digitais, sobretudo
por conta da consolidação da internet como meio de comunicação. Proporcionalmente, cresce
também a quantidade de algoritmos e metodologias propostas para mineração de dados e identificação
de tendências ou padrões, hoje uma tarefa inviável à capacidade analítica humana. No
entanto, de acordo com a literatura, estas técnicas apresentam performance diferente quando
aplicadas em problemas ou bases de dados diferentes. Assim, este trabalho propõe um modelo
bayesiano que agrega a saída de diferentes algoritmos de classificação, ponderando-as de maneira
a priorizar o classificador com melhor performance para o problema em questão. Foram
aplicados e comparados algoritmos consolidados na literatura, considerando dois conjuntos. O
primeiro deles envolve o Supported Vector Machine (SVM) e o XGBoost, enquanto o segundo
compreende SVM, Tensorflow e uma rede neural do tipo Multilayer Perceptron (MLP). Para
otimização do processo combinatório de ponderação dos classificadores no modelo proposto,
foram também aplicados e comparados dois algoritmos bio-inspirados, Firefly e Particle Swarm
Optimization. A metodologia foi aplicada em três bases de dados de classificação binária, sendo
duas para predição da rotatividade de clientes, Telco Customer Churn e Churn in Telecom’s Dataset,
e uma terceira base para predição de doenças cardiovasculares, Cardiovascular Disease
Dataset. Os resultados obtidos mostram que o modelo proposto priorizou os classificadores com
maior performance, portanto preservando a saída com maior assertividade, sobretudo na base
de dados Telco Customer Churn. Neste caso, a despeito da maior variação nas classificações, o
método proposto apresentou estabilidade na classificação. Nas demais bases de dados, quando
os classificadores possuem performance similar, o modelo proposto apresentou assertividade
também similar aos demais.