Comunicação aumentativa e alternativa utilizando rastreamento ocular e recomendação de palavras através de modelos de linguagem
Carregando...
Arquivos
Citações na Scopus
Tipo de produção
Dissertação
Data
2024
Autores
Waideman, Bruno
Orientador
Aquino Junior, Plínio T.
Periódico
Título da Revista
ISSN da Revista
Título de Volume
Citação
WAIDEMAN, Bruno. Comunicação aumentativa e alternativa utilizando rastreamento ocular e recomendação de palavras através de modelos de
linguagem. 2024. 98 f. Dissertação (Mestrado em Engenharia Elétrica) - Centro Universitário FEI, São Bernardo do Campo, 2024. Disponível em: Texto na íntegra.
Texto completo (DOI)
Palavras-chave
Comunicação Aumentativa,Rastreamento ocular,Redes Neurais Artificiais,Modelos de linguagem
Resumo
Desde as mais antigas formas de comunicação até os mais recentes desenvolvimentos
na tecnologia computacional, a produção, o armazenamento e a circulação de informação e
conteúdo têm sido aspectos centrais da vida social. Com o contínuo avanço da tecnologia, os
meios digitais se tornaram relevantes para aproximar pessoas e facilitar ainda mais a circulação
de informações. Para utilizar estes dispositivos, usualmente são utilizados teclados, sejam eles
físicos ou digitais, e outros dispositivos, como mouses e canetas em telas eletrônicas sensíveis.
Utilizar estes dispositivos pode ser uma tarefa trivial para a maior parte das pessoas, no entanto,
é limitante para aqueles que apresentam dificuldades motoras em determinados contextos de
uso. A Comunicação Aumentativa e Alternativa (CAA) é então utilizada para ampliar estas
habilidades de comunicação, possibilitando a construção de canais alternativos, através da
valorização de todas as formas de expressão existentes. Desta forma, novas modalidades de
interação com dispositivos de comunicação, como a entrada por gestos, comandos de voz
e diversos tipos de sensores, são cada vez mais comuns. A entrada de informação através
do rastreamento ocular é uma modalidade que encontra grande aplicação em sistemas de
acessibilidade. No entanto, muitas limitações podem ser observadas, como fadiga visual e
imprecisão na decodificação, causando erros de digitação e maior tempo para inserção de
estruturas de texto, quando comparado com os métodos tradicionais. Desse modo, este
trabalho apresenta um método de interação baseado no rastreamento do movimento ocular
e orientação da cabeça, acoplado a um teclado virtual, utilizando uma rede neural artificial
para decodificar o traçado do olhar e traduzir as intenções dos usuários na interface. De
forma complementar, é utilizado um Modelo de Linguagem (ML) para realizar a recomendação
de próximas palavras. Com isso, investigou-se a influência destas tecnologias no sistema
proposto, medindo a velocidade de digitação, taxa de erros e perplexidade que, de forma geral,
demonstraram resultados satisfatórios para auxiliar pessoas com deficiência a se comunicarem
melhor
From the earliest forms of communication to the latest developments in computer technology, the production, storage, and circulation of information and content have been central aspects of social life. With the continuous advancement of technology, digital media has become relevant to bringing people closer together and further facilitating the flow of information. To use these devices, keyboards are usually employed, whether physical or digital, along with other devices such as mice and pens on sensitive electronic screens. Using these devices may be a trivial task for most people; however, it is limiting for those who have motor difficulties in specific usage contexts. Augmentative and Alternative Communication (AAC) is then used to improve these communication abilities, enabling the construction of alternative channels by valuing all existing forms of expression. In this way, new interaction modalities with communication devices, such as gesture input, voice commands, and various types of sensors, are becoming increasingly common. Inputting information through eye tracking is widely applied in accessibility systems. However, many limitations can be observed, such as visual fatigue and imprecision in decoding, leading to typing errors and longer insertion times for text structures compared to traditional methods. Therefore, this work presents an interaction method based on eye movement tracking and head orientation, coupled with a virtual keyboard, using an artificial neural network to decode gaze trajectories and translate users’ intentions into the interface. Additionally, a Language Model (LM) is used to recommend the following words. Thus, the influence of these technologies on the proposed system was investigated, measuring typing speed, error rate, and perplexity, which, overall, showed satisfactory results in helping people with disabilities to communicate more effectively
From the earliest forms of communication to the latest developments in computer technology, the production, storage, and circulation of information and content have been central aspects of social life. With the continuous advancement of technology, digital media has become relevant to bringing people closer together and further facilitating the flow of information. To use these devices, keyboards are usually employed, whether physical or digital, along with other devices such as mice and pens on sensitive electronic screens. Using these devices may be a trivial task for most people; however, it is limiting for those who have motor difficulties in specific usage contexts. Augmentative and Alternative Communication (AAC) is then used to improve these communication abilities, enabling the construction of alternative channels by valuing all existing forms of expression. In this way, new interaction modalities with communication devices, such as gesture input, voice commands, and various types of sensors, are becoming increasingly common. Inputting information through eye tracking is widely applied in accessibility systems. However, many limitations can be observed, such as visual fatigue and imprecision in decoding, leading to typing errors and longer insertion times for text structures compared to traditional methods. Therefore, this work presents an interaction method based on eye movement tracking and head orientation, coupled with a virtual keyboard, using an artificial neural network to decode gaze trajectories and translate users’ intentions into the interface. Additionally, a Language Model (LM) is used to recommend the following words. Thus, the influence of these technologies on the proposed system was investigated, measuring typing speed, error rate, and perplexity, which, overall, showed satisfactory results in helping people with disabilities to communicate more effectively