Extração de sentenças relevantes de artigos científicos utilizando modelo de linguagem e representação vetorial de palavras
Carregando...
Arquivos
Citações na Scopus
Tipo de produção
Dissertação
Data
2023
Autores
Fossato, Letícia
Orientador
Bergamasco, L. C. C.
Periódico
Título da Revista
ISSN da Revista
Título de Volume
Citação
FOSSATO, Letícia; BERGAMASCO, L. C. C. Extração de sentenças relevantes de artigos científicos utilizando modelo de linguagem e representação vetorial de palavras. 2023. 93 p. Dissertação (Mestrado em Engenharia Elétrica) - Centro Universitário FEI, São Bernardo do Campo, 2023. Disponível em: https://doi.org/10.31414/EE.2023.D.131643.
Texto completo (DOI)
Palavras-chave
Modelo de linguagem,Processamento de linguagem natural (Computação),Vetorização,Similaridade
Resumo
Nas últimas décadas, o rápido avanço tecnológico gerou reflexos diretos na comunidade
científica devido ao aumento da quantidade de pesquisas publicadas mensalmente. Visando
colaborar com a rotina de estudo dos pesquisadores e diminuir a quantidade de tempo dedicada
para a leitura e interpretação de artigos, técnicas para a extração de sentenças relevantes
ganharam destaque no ramo de Processamento de Linguagem Natural. Neste sentido, o presente
trabalho propõe duas investigações para automatizar a extração de frases representativas de
artigos científicos. A primeira, consiste na premissa de extração de frases representativas
comparando as sentenças presentes simultaneamente nas seções “Resumo”, “Introdução” e
“Conclusão”. A segunda, na criação de um Modelo de Linguagem N-Gramas, treinado a partir
das frases selecionadas pela premissa anterior, para aprender e generalizar o comportamento
destas sentenças. O estudo incluiu técnicas de pré-processamento, vetorização de palavras
(Word2Vec e FastText), similaridade cosseno e Modelo de Linguagem N-Gramas para a obtenção
dos resultados. As frases obtidas foram validadas por meio da comparação com a sumarização
padrão ouro e metrificadas pelo ROUGE-1. Entre os dois métodos testados, o melhor resultado
foi obtido por meio da premissa de frases simultâneas entre as três seções mencionadas, utilizando
o algoritmo de vetorização FastText, com 89% de F-Score ROUGE-1. O modelo de linguagem,
mesmo com técnicas de suavização aplicadas, não teve dados suficientes para generalizar o
comportamento da base de dados, pois 88% do vocabulário dos artigos de teste foi inédito ao
modelo
In the last decades, the fast technological advance has generated direct effects in the scientific community due to the increase in the quantity of researches published monthly. Aiming to collaborate with the study routine of researchers and reduce the amount of time dedicated to reading and interpreting articles, techniques for extracting relevant sentences have gained prominence in the field of Natural Language Processing. In this sense, the present work proposes two investigations to automate the extraction of representative sentences from scientific articles. The first, consists in the premise of extracting representative sentences by comparing the sentences simultaneously present in the Summary, Introduction and Conclusion sections. The second, in the creation of an N-Gram Language Model, trained from the sentences selected by the previous premise, to learn and generalize the behavior of these sentences. The study applied preprocessing, word vectorization (Word2Vec and FastText), cosine similarity and N-Gram Language Model techniques to obtain the results. The obtained sentences were validated by comparing with the gold standard summarization and metrified by ROUGE-1. Among the two tested methods, the best result was obtained by premised on simultaneous sentences among the three mentioned sections, using the vectorization algorithm FastText, with 89% of ROUGE-1 F-Score. The language model, even with smoothing techniques applied, did not have enough data to generalize the behavior of the database, as 88% of the test articles’ vocabulary was unknown to the model.
In the last decades, the fast technological advance has generated direct effects in the scientific community due to the increase in the quantity of researches published monthly. Aiming to collaborate with the study routine of researchers and reduce the amount of time dedicated to reading and interpreting articles, techniques for extracting relevant sentences have gained prominence in the field of Natural Language Processing. In this sense, the present work proposes two investigations to automate the extraction of representative sentences from scientific articles. The first, consists in the premise of extracting representative sentences by comparing the sentences simultaneously present in the Summary, Introduction and Conclusion sections. The second, in the creation of an N-Gram Language Model, trained from the sentences selected by the previous premise, to learn and generalize the behavior of these sentences. The study applied preprocessing, word vectorization (Word2Vec and FastText), cosine similarity and N-Gram Language Model techniques to obtain the results. The obtained sentences were validated by comparing with the gold standard summarization and metrified by ROUGE-1. Among the two tested methods, the best result was obtained by premised on simultaneous sentences among the three mentioned sections, using the vectorization algorithm FastText, with 89% of ROUGE-1 F-Score. The language model, even with smoothing techniques applied, did not have enough data to generalize the behavior of the database, as 88% of the test articles’ vocabulary was unknown to the model.