Bergamasco, L. C. C.Pompolo, Adalberto Nassu2024-03-072024-03-072024POMPOLO, Adalberto Nassu. <b> Utilização de uma rede multilayer perceptron para buscasemântica de código-fonte a partir de linguagem natural. </b> 2024. 65 p. Dissertação (Mestrado em Engenharia Elétrica) - Centro Universitário FEI, São Bernardo do Campo, 2024. Disponível em: https://doi.org/10.31414/EE.2024.D.131707.https://repositorio.fei.edu.br/handle/FEI/5291Ferramentas de busca de código-fonte a partir de linguagem natural são cada vez mais importantes no dia a dia de engenheiros e desenvolvedores de software. Atualmente, modelos transformers são o estado da arte em diversas tarefas da área de Natural Language Processing (NLP), como busca de código-fonte a partir de linguagem natural. Porém, tais modelos requerem muito tempo e recursos computacionais para serem treinados em um determinado domínio (fine-tuning). Por outro lado, redes neurais clássicas, como Multilayer perceptron (MLP) por exemplo, necessitam de menos recursos para seu treinamento, porém não obtém os resultados dos modelos transformers. Diante disso, o objetivo do presente trabalho é utilizar uma rede MLP para determinar a similaridade entre dois embeddings, gerados por redes transformers, de dois domínios diferentes: linguagem natural e linguagem de programação. Para tanto, serão utilizados mais de 10000 pares código-fonte/comentário, bem como um conjunto de buscas (queries) e seus resultados esperados; ambos oriundos da base de dados CodeSearchNet. Por fim, a rede obteve bons resultados em determinadas amostras, conseguindo captar informações semânticas do par código-fonte/comentárioCode search tools using natural language queries are becoming an essential tool for software engineers. Nowadays, the transformers models are the state-of-art for several natural language processing tasks such as code search using natural language. However, such models requires a lot of computational resources for training in a specific domain (fine-tuning). On the other hand, classical neural networks such as MLP takes less computational resources for training in a specific domain, but it does not achieve the transformers models results. That being said, the goal of this study is to use a MLP network to determine the similarity between two transformers embeddings from two different domains: one trained using NLP and the other using code snippets. Therefore, it will be used more than 10000 code/comment pairs as well as a annotated queries dataset; both datasets came from the CodeSearchNet database. At the end, the network yields good results in a subset of samples, detecting semantic information within the code/comment pairpt-BRCódigo fonteLinguagem naturalTransformersUtilização de uma rede multilayer perceptron para buscasemântica de código-fonte a partir de linguagem naturalDissertaçãohttps://doi.org/10.31414/EE.2024.D.131707