Jun, 2024

不需要奖励推断的人类反馈强化学习:无模型算法与实例相关分析

TL;DR通过开发一种无模型的强化学习方法,本研究以人类反馈为基础,通过对动作进行对抗性竞争,提出了一个可直接从人类偏好信息中识别最佳策略的 RLHF 算法,证明了在样本复杂度方面 RLHF 并不比传统强化学习更困难,并且通过规避奖励推断中的问题,如过拟合和分布偏移,可能提供改进的性能。