ACLJun, 2024

通过语言反馈教授语言模型自我提升

TL;DR本文提出了自我优化调整(SRT)方法,利用模型反馈来对齐大规模语言模型(LLMs),减少对人类注释的依赖,实现基础模型的自我评估和输出改进,从而促进持续学习。经验证明,SRT 在不同任务和模型大小上明显优于强基线模型,特别是在 AlpacaEval 2.0 基准测试上,对于 70B 参数模型,胜率从 9.6% 提升至 25.8%,超过 GPT-4-0314、Claude 2 和 Gemini 等已建立的系统,语言反馈在 SRT 的成功中起着关键作用。