Feb, 2023

面向合作多智能体强化学习的双自我感知价值分解框架(无个体全局最大值)

TL;DR在合作多智能体强化学习领域,我们提出了一种基于双重自我意识概念的价值分解框架,它完全拒绝了个体全局最大原则。通过使用明确的搜索过程,价值函数分解可以忽略IGM假设。我们还提出了一种新颖的抗自我探索机制,以避免算法陷入局部最优解。作为第一个完全不遵循IGM规则的价值分解方法,我们提出的框架在各种协作任务中实现了理想的性能。