May, 2023

逆向多智体强化学习在集体行为中的个体奖励探究

TL;DR本研究提出了一种基于反强化学习和引导成本学习的离轨多智能体强化学习算法(IMARL),该算法可以解决复杂物理系统的集体动态问题,并在单智能体模型和多智能体模型下展现了优异的性能。