May, 2024

TS-Align: 大规模语言模型迭代微调的师生协作框架

TL;DR我们引入了 “TS-Align” 框架,该框架利用从模型输出中自动提取的成对反馈数据来微调策略模型,从而解决了大规模语言模型对人类反馈数据的依赖性及数据收集成本高的问题,并通过实验证明我们的对齐策略性能在七个对话或遵循指导数据集上的平均胜率达到 69.7%。同时,该框架还能有效地在小规模的学生模型中提取教师模型的排序能力,形成一个小而有效的奖励模型,用于策略模型的对齐。