Apr, 2024

将语言模型与人类偏好对齐

TL;DR在本研究论文中,作者通过探索多种方法来与人类偏好对齐语言模型,包括基于贝叶斯推理的方法、基于反馈的加强学习和分布匹配等,从而展现了与强化学习反馈不同且互补的对齐技术的潜力。