Jan, 2024
众智强化学习:基于众智的奖励学习
Crowd-PrefRL: Preference-Based Reward Learning from Crowds
David Chhan, Ellen Novoseller, Vernon J. Lawhern
TL;DR在这项研究中,我们介绍了 Crowd-PrefRL,一个利用群体反馈进行基于偏好的强化学习的框架,该框架可以从未知专长和可靠性的群体中学习奖励函数,并且在大多数情况下,比倾向多数或任何个体用户提供的偏好的训练代理要好,尤其是当群体中用户错误率的分布较大时。