GERAÇÃO DE IMAGEM A PARTIR DE SENTENÇA DESCRITIVA

Paulo Sérgio Silva RodriguesAUGUSTO TUROLLAMATEUS DAVI SILVAIGOR DO NASCIMENTO ALVESALEXANDRE KENJY DE SIQUEIRA KUMAGAI2024-08-152024-08-152020-06-17https://repositorio.fei.edu.br/handle/FEI/5482Com o avanço tecnológico, sobretudo nas áreas de Inteligência Artificial(IA), Processa- mento de Linguagem Natural(PLN) e Aprendizado Profundo existem expectativas promissoras para futuras tarefas que a computação possivelmente será capaz de realizar. Muitos trabalhos realizados ao longo desta década tem utilizado redes neurais para resolver problemas que po- dem ser solucionados seguindo as técnicas de IA, tendo alcançado excelentes avanços na área. Um destes problemas é o da capacidade da computação de ilustrar contextos diversos. Alguns exemplos deste problema estão relacionados à indústria da literatura, cinematografia e de jogos ou de criar cenas para áreas comercial e publicitária. Avanços significativos que surgiram no campo das redes neurais e PLN são os assistentes pessoais que estão cada vez mais presentes no nosso cotidiano. Neste trabalho, é proposto um modelo capaz de gerar imagens a partir de sentenças textuais. Para construir o modelo é utilizada uma rede neural para gerar imagens, cha- mada de rede generativa adversarial(GAN), que foi treinada utilizando o dataset MS COCO, que são bases de dados de imagem e meta-dados que descrevem os objetos e cenários contidos nas imagens, e funções de ativação diferentes das utilizadas habitualmente, com o objetivo de superar o estado da arte. As contribuições são: (i) Um estudo sobre a influência da aplicação das diferentes funções de ativação sobre o modelo generativo adversarial; (ii) um modelo pré- treinado de Redes Neurais Generativas Adversariais, para gerar imagens de ambientes urbanos artificiais através de sentenças descritivas de cenas urbanas; e (iii) a disponibilização de um da- taset para treinamentos com modelos urbanos. O projeto obteve sucesso em gerar imagens que se assemelham ao contexto urbano apresentando uma assertividade de 27% através da função ReLU como ativadora da rede neural. Em conjunto, é apresentado também uma comparação da geração de imagens urbanas e outro tipo de imagens a partir de um espaço amostral com menor riqueza de detalhes, como flores.With technological advances, especially in the areas of Artificial Intelligence (AI), Natu- ral Language Processing (NLP) and Deep Learning, there are promising expectations for future tasks that computing will possibly be able to accomplish. Many works carried out over this decade have used neural networks to solve problems that can be solved using AI techniques, achieving excellent advances in the area. One of these problems is the computing ability to il- lustrate diverse contexts. Some examples of this problem are related to the literature, cinemato- graphy and game industry or to create scenes for commercial and advertising areas. Significant advances that have emerged in the field of neural networks and NLP are the personal assistants that are increasingly present in our daily lives. In this work, a model capable of generating images from textual sentences is proposed. To build the model, is used an generative adversa- rial network (GAN) to generate images, which was trained on the MS COCO, an image and metadata databases that describe the objects and scenarios, and activation functions different from those commonly used, in order to overcome the state of the art. The contributions are: (i) A study on the influence of the application of the different activation functions on the genera- tive adversarial model; (ii) a pre-trained Generative Adversarial Network model , to generate images of artificial urban environments through descriptive sentences of urban scenes; and (iii) a dataset for training with urban models. The project was successful in generating images that resemble the urban context, presenting an assertiveness of 27 % through the ReLU function as an activator of the neural network. Furthermore, a comparison of the generation of urban images and other types of images from a sample space with less detail, such as flowers, is also presented.70pt-BRRestritoGeração de imagensGANredes neuraisaprendizado de máquinaGERAÇÃO DE IMAGEM A PARTIR DE SENTENÇA DESCRITIVATrabalho de Conclusão de Curso