Aug, 2023

指导反向翻译的自对齐

TL;DR我们提出了一种可扩展的方法,通过自动标记人工编写的文本与相应的指令来构建高质量的指令跟随语言模型。我们的方法命名为指令反向翻译,使用少量种子数据和给定的网络语料库对语言模型进行微调,通过为网络文档生成指令提示来构建训练样本(自助增强),然后从这些候选样本中选择高质量的例子(自我策划)。然后使用这些数据对模型进行微调。对LLaMa进行两次迭代的微调可以得到一个模型,它在Alpaca排行榜上性能优于其他基于LLaMa的模型,并且不依赖蒸馏数据,展示了高度有效的自我对齐。