GERAÇÃO DE IMAGEM A PARTIR DE SENTENÇA DESCRITIVA
Carregando...
Arquivos
Citações na Scopus
Tipo de produção
Trabalho de Conclusão de Curso
Data
2020-06-17
Autores
AUGUSTO TUROLLA
MATEUS DAVI SILVA
IGOR DO NASCIMENTO ALVES
ALEXANDRE KENJY DE SIQUEIRA KUMAGAI
MATEUS DAVI SILVA
IGOR DO NASCIMENTO ALVES
ALEXANDRE KENJY DE SIQUEIRA KUMAGAI
Orientador
Paulo Sérgio Silva Rodrigues
Periódico
Título da Revista
ISSN da Revista
Título de Volume
Citação
Texto completo (DOI)
Palavras-chave
Geração de imagens,GAN,redes neurais,aprendizado de máquina
Resumo
Com o avanço tecnológico, sobretudo nas áreas de Inteligência Artificial(IA), Processa-
mento de Linguagem Natural(PLN) e Aprendizado Profundo existem expectativas promissoras
para futuras tarefas que a computação possivelmente será capaz de realizar. Muitos trabalhos
realizados ao longo desta década tem utilizado redes neurais para resolver problemas que po-
dem ser solucionados seguindo as técnicas de IA, tendo alcançado excelentes avanços na área.
Um destes problemas é o da capacidade da computação de ilustrar contextos diversos. Alguns
exemplos deste problema estão relacionados à indústria da literatura, cinematografia e de jogos
ou de criar cenas para áreas comercial e publicitária. Avanços significativos que surgiram no
campo das redes neurais e PLN são os assistentes pessoais que estão cada vez mais presentes
no nosso cotidiano. Neste trabalho, é proposto um modelo capaz de gerar imagens a partir de
sentenças textuais. Para construir o modelo é utilizada uma rede neural para gerar imagens, cha-
mada de rede generativa adversarial(GAN), que foi treinada utilizando o dataset MS COCO,
que são bases de dados de imagem e meta-dados que descrevem os objetos e cenários contidos
nas imagens, e funções de ativação diferentes das utilizadas habitualmente, com o objetivo de
superar o estado da arte. As contribuições são: (i) Um estudo sobre a influência da aplicação
das diferentes funções de ativação sobre o modelo generativo adversarial; (ii) um modelo pré-
treinado de Redes Neurais Generativas Adversariais, para gerar imagens de ambientes urbanos
artificiais através de sentenças descritivas de cenas urbanas; e (iii) a disponibilização de um da-
taset para treinamentos com modelos urbanos. O projeto obteve sucesso em gerar imagens que
se assemelham ao contexto urbano apresentando uma assertividade de 27% através da função
ReLU como ativadora da rede neural. Em conjunto, é apresentado também uma comparação da
geração de imagens urbanas e outro tipo de imagens a partir de um espaço amostral com menor
riqueza de detalhes, como flores.
With technological advances, especially in the areas of Artificial Intelligence (AI), Natu- ral Language Processing (NLP) and Deep Learning, there are promising expectations for future tasks that computing will possibly be able to accomplish. Many works carried out over this decade have used neural networks to solve problems that can be solved using AI techniques, achieving excellent advances in the area. One of these problems is the computing ability to il- lustrate diverse contexts. Some examples of this problem are related to the literature, cinemato- graphy and game industry or to create scenes for commercial and advertising areas. Significant advances that have emerged in the field of neural networks and NLP are the personal assistants that are increasingly present in our daily lives. In this work, a model capable of generating images from textual sentences is proposed. To build the model, is used an generative adversa- rial network (GAN) to generate images, which was trained on the MS COCO, an image and metadata databases that describe the objects and scenarios, and activation functions different from those commonly used, in order to overcome the state of the art. The contributions are: (i) A study on the influence of the application of the different activation functions on the genera- tive adversarial model; (ii) a pre-trained Generative Adversarial Network model , to generate images of artificial urban environments through descriptive sentences of urban scenes; and (iii) a dataset for training with urban models. The project was successful in generating images that resemble the urban context, presenting an assertiveness of 27 % through the ReLU function as an activator of the neural network. Furthermore, a comparison of the generation of urban images and other types of images from a sample space with less detail, such as flowers, is also presented.
With technological advances, especially in the areas of Artificial Intelligence (AI), Natu- ral Language Processing (NLP) and Deep Learning, there are promising expectations for future tasks that computing will possibly be able to accomplish. Many works carried out over this decade have used neural networks to solve problems that can be solved using AI techniques, achieving excellent advances in the area. One of these problems is the computing ability to il- lustrate diverse contexts. Some examples of this problem are related to the literature, cinemato- graphy and game industry or to create scenes for commercial and advertising areas. Significant advances that have emerged in the field of neural networks and NLP are the personal assistants that are increasingly present in our daily lives. In this work, a model capable of generating images from textual sentences is proposed. To build the model, is used an generative adversa- rial network (GAN) to generate images, which was trained on the MS COCO, an image and metadata databases that describe the objects and scenarios, and activation functions different from those commonly used, in order to overcome the state of the art. The contributions are: (i) A study on the influence of the application of the different activation functions on the genera- tive adversarial model; (ii) a pre-trained Generative Adversarial Network model , to generate images of artificial urban environments through descriptive sentences of urban scenes; and (iii) a dataset for training with urban models. The project was successful in generating images that resemble the urban context, presenting an assertiveness of 27 % through the ReLU function as an activator of the neural network. Furthermore, a comparison of the generation of urban images and other types of images from a sample space with less detail, such as flowers, is also presented.