Dec, 2023

从人类反馈中进行吉布斯采样:基于可证明的 KL 约束的 RLHF 框架

TL;DR研究生成模型与强化学习从人类反馈中的对齐过程的理论框架,考虑了逆 KL 正则化情境赌博机在此方面的应用,通过离线和在线设置的理论属性研究以及与现有实际对齐算法的联系,为未来算法设计提供新的工具和见解。