BriefGPT.xyz
Ask
alpha
关键词
model feedback
搜索结果 - 1
ACL
通过语言反馈教授语言模型自我提升
本文提出了自我优化调整(SRT)方法,利用模型反馈来对齐大规模语言模型(LLMs),减少对人类注释的依赖,实现基础模型的自我评估和输出改进,从而促进持续学习。经验证明,SRT 在不同任务和模型大小上明显优于强基线模型,特别是在 Alpaca
→
PDF
25 days ago
Prev
Next