Utilização de uma rede multilayer perceptron para buscasemântica de código-fonte a partir de linguagem natural

dc.contributor.advisorBergamasco, L. C. C.
dc.contributor.authorPompolo, Adalberto Nassu
dc.date.accessioned2024-03-07T12:21:26Z
dc.date.available2024-03-07T12:21:26Z
dc.date.issued2024
dc.description.abstractFerramentas de busca de código-fonte a partir de linguagem natural são cada vez mais importantes no dia a dia de engenheiros e desenvolvedores de software. Atualmente, modelos transformers são o estado da arte em diversas tarefas da área de Natural Language Processing (NLP), como busca de código-fonte a partir de linguagem natural. Porém, tais modelos requerem muito tempo e recursos computacionais para serem treinados em um determinado domínio (fine-tuning). Por outro lado, redes neurais clássicas, como Multilayer perceptron (MLP) por exemplo, necessitam de menos recursos para seu treinamento, porém não obtém os resultados dos modelos transformers. Diante disso, o objetivo do presente trabalho é utilizar uma rede MLP para determinar a similaridade entre dois embeddings, gerados por redes transformers, de dois domínios diferentes: linguagem natural e linguagem de programação. Para tanto, serão utilizados mais de 10000 pares código-fonte/comentário, bem como um conjunto de buscas (queries) e seus resultados esperados; ambos oriundos da base de dados CodeSearchNet. Por fim, a rede obteve bons resultados em determinadas amostras, conseguindo captar informações semânticas do par código-fonte/comentário
dc.description.abstractCode search tools using natural language queries are becoming an essential tool for software engineers. Nowadays, the transformers models are the state-of-art for several natural language processing tasks such as code search using natural language. However, such models requires a lot of computational resources for training in a specific domain (fine-tuning). On the other hand, classical neural networks such as MLP takes less computational resources for training in a specific domain, but it does not achieve the transformers models results. That being said, the goal of this study is to use a MLP network to determine the similarity between two transformers embeddings from two different domains: one trained using NLP and the other using code snippets. Therefore, it will be used more than 10000 code/comment pairs as well as a annotated queries dataset; both datasets came from the CodeSearchNet database. At the end, the network yields good results in a subset of samples, detecting semantic information within the code/comment pair
dc.identifier.citationPOMPOLO, Adalberto Nassu. <b> Utilização de uma rede multilayer perceptron para buscasemântica de código-fonte a partir de linguagem natural. </b> 2024. 65 p. Dissertação (Mestrado em Engenharia Elétrica) - Centro Universitário FEI, São Bernardo do Campo, 2024. Disponível em: https://doi.org/10.31414/EE.2024.D.131707.
dc.identifier.doihttps://doi.org/10.31414/EE.2024.D.131707
dc.identifier.urihttps://repositorio.fei.edu.br/handle/FEI/5291
dc.languagepor
dc.language.isopt_BR
dc.publisherCentro Universitário FEI, São Bernardo do Campo
dc.subjectCódigo fonte
dc.subjectLinguagem natural
dc.subjectTransformers
dc.titleUtilização de uma rede multilayer perceptron para buscasemântica de código-fonte a partir de linguagem naturalpt_BR
dc.typeDissertaçãopt_BR
Arquivos
Pacote Original
Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
fulltext.pdf
Tamanho:
2.14 MB
Formato:
Adobe Portable Document Format