Jun, 2024

多智能体模仿学习:价值易得,遗憾难求

TL;DR协作学习中的多智能体模仿学习问题,以减小学习者和专家之间的价值差为目标,但无法保证对战略智能体的偏离具有鲁棒性。因此,研究了在马尔科夫博弈中以后悔差作为目标的代替方案,并提出了两种有效的方法来最小化后悔差。