BriefGPT.xyz
Ask
alpha
关键词
self-judge
搜索结果 - 1
基于策略自我判断的大型语言模型对齐
本文提出了一种新的自动对齐框架 SELF-JUDGE,通过在模型中集成筛选器和评价器的功能来实现高效的在线策略学习,无需单独引入奖励模型进行训练,实验证明 SELF-JUDGE 在偏好基准测试中表现优异。
PDF
5 months ago
Prev
Next