Aug, 2024

非指导性微调:在没有指导性数据的情况下赋予预训练语言模型遵循指令的能力

TL;DR本研究解决了在缺乏指导性数据的情况下,如何使预训练语言模型具备遵循指令能力的问题。提出了一种新方法,通过使用随机文本的前半部分作为指令,与GPT-3.5-turbo或GPT-4-turbo生成的文本作为响应,进行微调。实验表明,使用这种“非指导性数据”进行微调的模型在遵循指令能力上有所提升,甚至达到了与经过监督微调的模型相当的水平,具有重要的研究意义。