May, 2024

语言模型的直接对齐通过质量感知的自我优化

TL;DR利用人类反馈进行强化学习,用于与人类偏好一致的大型语言模型的行为对齐,提出了一个改进的 Direct Policy Optimization 方法,结合在线微调的语言模型使用内在知识来估计积极和消极响应的质量,以此改善训练结果,并实验证明其在多个评估者上比传统方法有更好的性能。