EMNLPOct, 2023

迭代式数据集合成:从小型模型推测错误实现大型语言模型的数据集合成

TL;DR通过使用大型语言模型来进行数据合成,我们提出了一种名为 “Synthesis Step by Step (S3)” 的数据合成框架,该框架通过迭代地使用大型语言模型对小型真实验证数据集上的小型模型合成数据集中的错误进行外推,从而缩小合成数据集与真实数据之间的分布差异。在多个自然语言处理任务的广泛实验中表明,我们的方法能够通过减小合成数据集与真实数据之间的差距来提高小型模型的性能,相较于 ZeroGen 和 GoldGen,我们的方法改进了 9.48% 和 2.73%,并且相较于人工标注数据训练的小型模型最多提高了 15.17%。