ACLMar, 2024

DiLM:文本级数据集蒸馏中的将数据集蒸馏为语言模型

TL;DR通过训练一个语言模型生成信息丰富的合成训练样本作为文本数据,我们提出了一种新颖的文本数据集精炼方法,称为 Distilling dataset into Language Model (DiLM)。我们在各种文本分类数据集上评估了 DiLM,并展示了从 DiLM 中获得的合成数据集胜过当前核心集选择方法的结果。DiLM 在训练不同类型的模型和大型语言模型的上下文学习中取得了显著的泛化性能。