BriefGPT.xyz
Ask
alpha
关键词
iterative dpo training
搜索结果 - 1
自奖励语言模型
通过自我奖励语言模型的迭代 DPO 训练,本研究展示了模型的指示遵循能力及为自身提供高质量奖励的能力的提升,最终的 Llama 2 70B 模型在 AlpacaEval 2.0 排行榜上表现优于许多现有系统,包括 Claude 2、Gemi
→
PDF
6 months ago
Prev
Next