Feb, 2024

纳什学习从人类反馈下的一般 KL 正则化偏好的理论分析

TL;DR这篇论文研究了基于人类反馈的强化学习方法,通过一种概率偏好模型来学习,实验了一种新的学习范式,KL 正则化 NLHF,旨在找到以初始模型为基础,持续生成优于竞争策略的响应的策略,并将其与传统的强化学习理论联系起来,验证了无奖励模型学习在一般偏好下的潜力。