Comunicação aumentativa e alternativa utilizando rastreamento ocular e recomendação de palavras através de modelos de linguagem

Carregando...
Imagem de Miniatura
Citações na Scopus
Tipo de produção
Dissertação
Data
2024
Autores
Waideman, Bruno
Orientador
Aquino Junior, Plínio T.
Periódico
Título da Revista
ISSN da Revista
Título de Volume
Citação
WAIDEMAN, Bruno. Comunicação aumentativa e alternativa utilizando rastreamento ocular e recomendação de palavras através de modelos de linguagem. 2024. 98 f. Dissertação (Mestrado em Engenharia Elétrica) - Centro Universitário FEI, São Bernardo do Campo, 2024. Disponível em: Texto na íntegra.
Texto completo (DOI)
Palavras-chave
Comunicação Aumentativa,Rastreamento ocular,Redes Neurais Artificiais,Modelos de linguagem
Resumo
Desde as mais antigas formas de comunicação até os mais recentes desenvolvimentos na tecnologia computacional, a produção, o armazenamento e a circulação de informação e conteúdo têm sido aspectos centrais da vida social. Com o contínuo avanço da tecnologia, os meios digitais se tornaram relevantes para aproximar pessoas e facilitar ainda mais a circulação de informações. Para utilizar estes dispositivos, usualmente são utilizados teclados, sejam eles físicos ou digitais, e outros dispositivos, como mouses e canetas em telas eletrônicas sensíveis. Utilizar estes dispositivos pode ser uma tarefa trivial para a maior parte das pessoas, no entanto, é limitante para aqueles que apresentam dificuldades motoras em determinados contextos de uso. A Comunicação Aumentativa e Alternativa (CAA) é então utilizada para ampliar estas habilidades de comunicação, possibilitando a construção de canais alternativos, através da valorização de todas as formas de expressão existentes. Desta forma, novas modalidades de interação com dispositivos de comunicação, como a entrada por gestos, comandos de voz e diversos tipos de sensores, são cada vez mais comuns. A entrada de informação através do rastreamento ocular é uma modalidade que encontra grande aplicação em sistemas de acessibilidade. No entanto, muitas limitações podem ser observadas, como fadiga visual e imprecisão na decodificação, causando erros de digitação e maior tempo para inserção de estruturas de texto, quando comparado com os métodos tradicionais. Desse modo, este trabalho apresenta um método de interação baseado no rastreamento do movimento ocular e orientação da cabeça, acoplado a um teclado virtual, utilizando uma rede neural artificial para decodificar o traçado do olhar e traduzir as intenções dos usuários na interface. De forma complementar, é utilizado um Modelo de Linguagem (ML) para realizar a recomendação de próximas palavras. Com isso, investigou-se a influência destas tecnologias no sistema proposto, medindo a velocidade de digitação, taxa de erros e perplexidade que, de forma geral, demonstraram resultados satisfatórios para auxiliar pessoas com deficiência a se comunicarem melhor
From the earliest forms of communication to the latest developments in computer technology, the production, storage, and circulation of information and content have been central aspects of social life. With the continuous advancement of technology, digital media has become relevant to bringing people closer together and further facilitating the flow of information. To use these devices, keyboards are usually employed, whether physical or digital, along with other devices such as mice and pens on sensitive electronic screens. Using these devices may be a trivial task for most people; however, it is limiting for those who have motor difficulties in specific usage contexts. Augmentative and Alternative Communication (AAC) is then used to improve these communication abilities, enabling the construction of alternative channels by valuing all existing forms of expression. In this way, new interaction modalities with communication devices, such as gesture input, voice commands, and various types of sensors, are becoming increasingly common. Inputting information through eye tracking is widely applied in accessibility systems. However, many limitations can be observed, such as visual fatigue and imprecision in decoding, leading to typing errors and longer insertion times for text structures compared to traditional methods. Therefore, this work presents an interaction method based on eye movement tracking and head orientation, coupled with a virtual keyboard, using an artificial neural network to decode gaze trajectories and translate users’ intentions into the interface. Additionally, a Language Model (LM) is used to recommend the following words. Thus, the influence of these technologies on the proposed system was investigated, measuring typing speed, error rate, and perplexity, which, overall, showed satisfactory results in helping people with disabilities to communicate more effectively