Feb, 2024

基于策略自我判断的大型语言模型对齐

TL;DR本文提出了一种新的自动对齐框架 SELF-JUDGE,通过在模型中集成筛选器和评价器的功能来实现高效的在线策略学习,无需单独引入奖励模型进行训练,实验证明 SELF-JUDGE 在偏好基准测试中表现优异。