ICLRFeb, 2023

假设人类有偏见,学习与人类的零射合作

TL;DR本研究针对多智能体强化学习在与人合作零 - shot 学习过程中的十分关键的限制,并提出了一种更通用的 Hidden-Utility Self-Play (HSP) 方法,该方法显式地模拟人类的偏好作为自我博弈的隐藏奖励函数。通过评估 Overcooked benchmark,HSP 方法成功获得了更高的协同收益,并被受试者评选为最有帮助的策略。