Mar, 2024

多方可证明强化学习与多样化人工反馈

TL;DR多方强化学习与人类反馈是新兴的方法,以使模型符合人类的偏好。本文通过理论研究,探讨了多个个体的多样化偏好的多方强化学习方法,并展示传统方法不适用的情况。文章提出了引入元学习以及采用不同的社会福利函数来聚合多方偏好的方式,其中包括纳什、功利主义和 Leximin 福利函数。同时,文章还考虑了无奖励设置,并给出了基于离线偏好数据的 von Neumann Winner 的悲观变体。研究结果表明,多方强化学习与传统单方强化学习在样本复杂度上存在差异,并凸显了多方强化学习的统计复杂性要求。