Jun, 2021

信其所见:离线多智能体强化学习的隐式约束方法

TL;DR本文介绍了一种新的离线强化学习算法 ICQ,它通过只信任数据集中的状态 - 动作对来有效减轻外推误差,并将其扩展到多智能体任务中,表现出明显的性能优势。