Feb, 2024
纳什学习从人类反馈下的一般 KL 正则化偏好的理论分析
A Theoretical Analysis of Nash Learning from Human Feedback under General KL-Regularized Preference
Chenlu Ye, Wei Xiong, Yuheng Zhang, Nan Jiang, Tong Zhang
TL;DR这篇论文研究了基于人类反馈的强化学习方法,通过一种概率偏好模型来学习,实验了一种新的学习范式,KL 正则化 NLHF,旨在找到以初始模型为基础,持续生成优于竞争策略的响应的策略,并将其与传统的强化学习理论联系起来,验证了无奖励模型学习在一般偏好下的潜力。