Repositório do Conhecimento Institucional do Centro Universitário FEI
 

Utilização de uma rede multilayer perceptron para buscasemântica de código-fonte a partir de linguagem natural

Imagem de Miniatura

Tipo de produção

Dissertação

Data de publicação

2024

Periódico

Editor

Centro Universitário FEI, São Bernardo do Campo

Texto completo na Scopus

Citações na Scopus

Autores

Pompolo, Adalberto Nassu

Orientadores

Bergamasco, L. C. C.

Resumo

Ferramentas de busca de código-fonte a partir de linguagem natural são cada vez mais importantes no dia a dia de engenheiros e desenvolvedores de software. Atualmente, modelos transformers são o estado da arte em diversas tarefas da área de Natural Language Processing (NLP), como busca de código-fonte a partir de linguagem natural. Porém, tais modelos requerem muito tempo e recursos computacionais para serem treinados em um determinado domínio (fine-tuning). Por outro lado, redes neurais clássicas, como Multilayer perceptron (MLP) por exemplo, necessitam de menos recursos para seu treinamento, porém não obtém os resultados dos modelos transformers. Diante disso, o objetivo do presente trabalho é utilizar uma rede MLP para determinar a similaridade entre dois embeddings, gerados por redes transformers, de dois domínios diferentes: linguagem natural e linguagem de programação. Para tanto, serão utilizados mais de 10000 pares código-fonte/comentário, bem como um conjunto de buscas (queries) e seus resultados esperados; ambos oriundos da base de dados CodeSearchNet. Por fim, a rede obteve bons resultados em determinadas amostras, conseguindo captar informações semânticas do par código-fonte/comentário

Code search tools using natural language queries are becoming an essential tool for software engineers. Nowadays, the transformers models are the state-of-art for several natural language processing tasks such as code search using natural language. However, such models requires a lot of computational resources for training in a specific domain (fine-tuning). On the other hand, classical neural networks such as MLP takes less computational resources for training in a specific domain, but it does not achieve the transformers models results. That being said, the goal of this study is to use a MLP network to determine the similarity between two transformers embeddings from two different domains: one trained using NLP and the other using code snippets. Therefore, it will be used more than 10000 code/comment pairs as well as a annotated queries dataset; both datasets came from the CodeSearchNet database. At the end, the network yields good results in a subset of samples, detecting semantic information within the code/comment pair

Citação

POMPOLO, Adalberto Nassu. Utilização de uma rede multilayer perceptron para buscasemântica de código-fonte a partir de linguagem natural. 2024. 65 p. Dissertação (Mestrado em Engenharia Elétrica) - Centro Universitário FEI, São Bernardo do Campo, 2024. Disponível em: https://doi.org/10.31414/EE.2024.D.131707.

Palavras-chave

Código fonte; Linguagem natural; Transformers

Keywords

Assuntos Scopus

Avaliação

Revisão

Suplementado Por

Referenciado Por