Utilização de uma rede multilayer perceptron para buscasemântica de código-fonte a partir de linguagem natural
dc.contributor.advisor | Bergamasco, L. C. C. | |
dc.contributor.author | Pompolo, Adalberto Nassu | |
dc.date.accessioned | 2024-03-07T12:21:26Z | |
dc.date.available | 2024-03-07T12:21:26Z | |
dc.date.issued | 2024 | |
dc.description.abstract | Ferramentas de busca de código-fonte a partir de linguagem natural são cada vez mais importantes no dia a dia de engenheiros e desenvolvedores de software. Atualmente, modelos transformers são o estado da arte em diversas tarefas da área de Natural Language Processing (NLP), como busca de código-fonte a partir de linguagem natural. Porém, tais modelos requerem muito tempo e recursos computacionais para serem treinados em um determinado domínio (fine-tuning). Por outro lado, redes neurais clássicas, como Multilayer perceptron (MLP) por exemplo, necessitam de menos recursos para seu treinamento, porém não obtém os resultados dos modelos transformers. Diante disso, o objetivo do presente trabalho é utilizar uma rede MLP para determinar a similaridade entre dois embeddings, gerados por redes transformers, de dois domínios diferentes: linguagem natural e linguagem de programação. Para tanto, serão utilizados mais de 10000 pares código-fonte/comentário, bem como um conjunto de buscas (queries) e seus resultados esperados; ambos oriundos da base de dados CodeSearchNet. Por fim, a rede obteve bons resultados em determinadas amostras, conseguindo captar informações semânticas do par código-fonte/comentário | |
dc.description.abstract | Code search tools using natural language queries are becoming an essential tool for software engineers. Nowadays, the transformers models are the state-of-art for several natural language processing tasks such as code search using natural language. However, such models requires a lot of computational resources for training in a specific domain (fine-tuning). On the other hand, classical neural networks such as MLP takes less computational resources for training in a specific domain, but it does not achieve the transformers models results. That being said, the goal of this study is to use a MLP network to determine the similarity between two transformers embeddings from two different domains: one trained using NLP and the other using code snippets. Therefore, it will be used more than 10000 code/comment pairs as well as a annotated queries dataset; both datasets came from the CodeSearchNet database. At the end, the network yields good results in a subset of samples, detecting semantic information within the code/comment pair | |
dc.identifier.citation | POMPOLO, Adalberto Nassu. <b> Utilização de uma rede multilayer perceptron para buscasemântica de código-fonte a partir de linguagem natural. </b> 2024. 65 p. Dissertação (Mestrado em Engenharia Elétrica) - Centro Universitário FEI, São Bernardo do Campo, 2024. Disponível em: https://doi.org/10.31414/EE.2024.D.131707. | |
dc.identifier.doi | https://doi.org/10.31414/EE.2024.D.131707 | |
dc.identifier.uri | https://repositorio.fei.edu.br/handle/FEI/5291 | |
dc.language | por | |
dc.language.iso | pt_BR | |
dc.publisher | Centro Universitário FEI, São Bernardo do Campo | |
dc.subject | Código fonte | |
dc.subject | Linguagem natural | |
dc.subject | Transformers | |
dc.title | Utilização de uma rede multilayer perceptron para buscasemântica de código-fonte a partir de linguagem natural | pt_BR |
dc.type | Dissertação | pt_BR |
Arquivos
Pacote Original
1 - 1 de 1