Programa de Pós-Graduação de Mestrado e Doutorado em Engenharia Elétrica
URI Permanente desta comunidade
Navegar
Navegando Programa de Pós-Graduação de Mestrado e Doutorado em Engenharia Elétrica por Assunto "agentes heterogêneos"
Agora exibindo 1 - 1 de 1
Resultados por página
Opções de Ordenação
Tese Especialização de comunicação e políticas em aprendizado por reforço com múltiplos agentes heterogêneos utilizando redes neurais de grafos(2021) Meneghetti, D. R.Esta tese apresenta uma arquitetura de rede neural voltada ao aprendizado de políticas em sistemas multi-agentes totalmente cooperativos, compostos de agentes heterogêneos e comunicativos. O ambiente é formalizado como um Processo de Decisão de Markov Parcialmente Observável Descentralizado e os estados transformados em grafos direcionados rotulados atribuídos de agentes e entidades. Vértices representam agentes e entidades; os rótulos dos vértices, suas classes, sendo todos os agentes dentro de uma mesma classe considerados homogêneos entre si; arcos direcionados representam a capacidade dos agentes de adquirir informação de outras entidades; e vetores armazenados nos vértices representam as características que descrevem agentes e entidades, ou as observações dos agentes. A topologia de rede neural proposta usa camadas totalmente conectadas para codificar as observações dos agentes; convoluções relacionais em grafos para aprender mecanismos de comunicação específicos para diferentes pares de classes; e diferentes redes neurais treinadas utilizando aprendizado por reforço para modelar as políticas das classes de agentes. A tese apresenta dois métodos. No primeiro, os módulos de codificação e aprendizado de funções valor-ação são modelados como redes neurais distintas para cada classe de entidade e agente, e o treinamento do modelo é feito utilizando uma memória de repetição de transições. O segundo método usa compartilhamento de parâmetros entre as classes de agentes para obter uma rede neural com menos parâmetros, assim como emprega camadas recorrentes e treinamento com amostras de uma memória de repetição de episódios. A comunicação relacional é comparada à comunicação realizada através de mecanismos de atenção e à ausência de comunicação entre os agentes. Também é testada a compatibilidade do método com outras contribuições disponíveis na literatura, como a regularização por relações temporais e o mixing aditivo. Testes realizados no ambiente do StarCraft Multi-Agent Challenge demonstram que o emprego de camadas de convolução relacionais para a especialização da comunicação entre agentes viabiliza desempenho comparável ou superior aos outros métodos em todos os cenários testados, principalmente naqueles com maior número de classes de agentes. Já a combinação da comunicação relacional com o mixing aditivo apresentou, geralmente, os melhores resultados