Representação e recuperação de imagens por meio de relações espaciais entre objetos

Santos, D. N.

Representação e recuperação de imagens por meio de relações espaciais entre objetos

Arquivos

fulltext.pdf (3.89 MB)

Tipo de produção

Tese

Data

2017

Autores

Santos, D. N.

Orientador

Santos, Paulo Eduardo

Citação

SANTOS, D. N. Representação e recuperação de imagens por meio de relações espaciais entre objetos. 2017. 115 p. Tese (Doutorado em Engenharia Elétrica) - Centro Universitário FEI, São Bernardo do Campo, 2017. Disponível em: . Acesso em: 19 mar. 2019.

Texto completo (DOI)

10.31414/EE.2017.T.129488

Palavras-chave

Processamento de imagens,Recuperação de imagens,Segmentação de imagens

URI

https://repositorio.fei.edu.br/handle/FEI/301

Resumo

Com o crescente número de imagens digitais geradas a cada dia, também aumenta a necessidade de recuperar informação contida em grandes bases de imagens de maneira rápida e precisa. As técnicas aplicadas em recuperação de imagens fazem uso, em geral, de atributos extraídos das imagens e neste espaço de atributos fazem comparações através de métricas de similaridade. Como o foco destas técnicas de recuperação de conteúdo é o uso de atributos de baixo nível, existe um problema pois o conteúdo semântico não está relacionado com estas características de baixo nível. Além disto, as relações entre objetos não são consideradas. Este trabalho aborda este problema conhecido como lacuna semântica (do inglês semantic gap) e procura aplicar relações espaciais com o intuito de reduzir o impacto da lacuna semântica na análise de cenas. Neste trabalho, as relações espaciais são expressas em termos de preposições espaciais. Assim, para definir uma preposição à partir de uma imagem é necessário segmentar os objetos que compõem a imagem e para cada par de objetos segmentados estabelecer a topologia entre eles. Para realizar a segmentação, é utilizado redes neurais convolucionais. Considerando uma imagem, a rede neural provê um valor probabilístico pada cada pixel existente na imagem, consequentemente, regiões compreendidas por valores estimados referentes à mesma classe são consideradas como o objeto segmentado. Posteriormente, estes objetos são combinados em pares para o estabelecimento de relações binárias entre eles. De posse dos objetos e seus respectivos segmentos, relações mereotopológicas são estabelecidas de acordo com o Region Connection Calculus (RCC). A definição destas relações é efetuada através de um procedimento que visa associar um par de objetos indicados na imagem com uma das oito relações definidas no RCC. Estas relações encontradas, com base neste procedimento, serão traduzidas para preposições linguísticas (existentes na língua inglesa), através de uma outra rede neural. Por fim, a informação dos objetos e suas respectivas relações é utilizada para estender uma ontologia superior. A ontologia aplicada é o Suggested Upper Merged Ontology (SUMO). O procedimento de introduzir uma representação formal permite o estabelecimento de novas relações, desconhecidas a priori. Este fato possibilita a recuperação de imagens à partir de relações derivadas através dos axiomas existentes na representação formal aplicada.
Due to the increasing number of digital images generated every day, also increases the need to recover information contained in large databases of images quickly and accurately. The applied techniques in image retrieval, in general, make use of features extracted from images and in this feature space make comparisons through similarity metrics. As the focus of these techniques of content retrieval is the use of low level features, there is a problem because the semantic content is unrelated with these low level features. Besides, the relations between objects are not considered. This work addresses this problem also known as semantic gap and intends to apply spatial relations with the goal of reducing the semantic gap impact in the scene analysis. In this work, the spatial relations are expressed in terms of spatial prepositions. Thus, in order to define a preposition from an image it is necessary to segment the objects within the image and by each pair of segmented object establish the topology between them. To perform segmentation, neural networks are used. Considering one image, the neural network provides a probabilistic value for every pixel in the image, therefore, the regions covered by similar values belong to the same class and are considered as being the segmented object. Furthermore, these objects are combined in pairs in order to establish binary relations between them. Relying on the objects and their respective regions, mereotopological relations are established according to Region Connection Calculus (RCC). The definition of these relations is performed through a procedure that intends to assign a pair of objects identified in the image with one of the eight relations defined in RCC. These relations established, based on these procedure, are converted to linguistic prepositions (in English language), through another neural network. Finally, the object information and their respective relations is applied to extend an upper ontology. The applied ontology is the Suggested Upper Merged Ontology (SUMO). The procedure of introducing a formal representation allows the establishment of new relations, unknown a priori. This fact enables image retrieval from relations derived through the existing axioms in the applied formal representation.

Coleções

Teses e Dissertações

Página do item completo