Jul, 2024

纠正KL正则化神话:通过卡方偏好优化进行直接对齐而不过多参数化

TL;DR语言模型对齐方法, 强化学习, 过拟合, 离线对齐算法, 样本效率。