ACLMay, 2024

G-DIG: 面向基于梯度的多样化和高质量指导数据选择的机器翻译

TL;DR我们提出了一种基于梯度的新方法,自动选择高质量和多样化的机器翻译指令微调数据。通过分析个别训练示例在训练过程中对模型的影响,我们选择对模型有益影响的示例作为高质量数据,并使用影响函数和一个小的高质量参考数据集。此外,为了提高训练数据的多样性,我们通过对梯度进行聚类和重新抽样来最大化它们对模型的影响的多样性。在 WMT22 和 FLORES 翻译任务上的大量实验证明了我们方法的优越性,深入分析进一步验证了它们的有效性和推广性。