May, 2023
逆向多智体强化学习在集体行为中的个体奖励探究
Discovering Individual Rewards in Collective Behavior through Inverse Multi-Agent Reinforcement Learning
Daniel Waelchli, Pascal Weber, Petros Koumoutsakos
TL;DR本研究提出了一种基于反强化学习和引导成本学习的离轨多智能体强化学习算法(IMARL),该算法可以解决复杂物理系统的集体动态问题,并在单智能体模型和多智能体模型下展现了优异的性能。