Jan, 2024

众智强化学习:基于众智的奖励学习

TL;DR在这项研究中,我们介绍了 Crowd-PrefRL,一个利用群体反馈进行基于偏好的强化学习的框架,该框架可以从未知专长和可靠性的群体中学习奖励函数,并且在大多数情况下,比倾向多数或任何个体用户提供的偏好的训练代理要好,尤其是当群体中用户错误率的分布较大时。