DiLM：文本级数据集蒸馏中的将数据集蒸馏为语言模型

ACLMar, 2024

DiLM：文本级数据集蒸馏中的将数据集蒸馏为语言模型

DiLM: Distilling Dataset into Language Model for Text-level Dataset Distillation

Aru Maekawa, Satoshi Kosugi, Kotaro Funakoshi, Manabu Okumura

TL;DR通过训练一个语言模型生成信息丰富的合成训练样本作为文本数据，我们提出了一种新颖的文本数据集精炼方法，称为 Distilling dataset into Language Model (DiLM)。我们在各种文本分类数据集上评估了 DiLM，并展示了从 DiLM 中获得的合成数据集胜过当前核心集选择方法的结果。DiLM 在训练不同类型的模型和大型语言模型的上下文学习中取得了显著的泛化性能。

Abstract

dataset distillation aims to compress a training dataset by creating a small number of informative synthetic samples such that neural networks

dataset distillation synthetic samples neural networks text dataset language model

发现论文，激发创造

探索多语言文本数据蒸馏

通过使用基于语言模型的学习方法，我们在多语言文本分类数据集上提出了几种数据蒸馏技术，来增强文本数据蒸馏领域中的跨体系结构泛化能力，并分析了它们在分类强度和跨体系结构泛化方面的性能，也研究了这些方法生成的数据摘要的语言特定公平性。

Aug, 2023

一个类别一个提示：使用扩散模型进行数据集精炼

利用生成式文本到图像模型的最新进展，我们引入了数据集精炼使用扩散模型 (D3M) 作为一种新的数据集精炼范式。通过文本反演技术，我们利用学习到的文本提示为大型数据集创建简洁且有信息量的表示，以在固定的内存预算内有效地存储和推理新样本，并通过在不同内存预算下在各种计算机视觉基准数据集上进行的广泛实验验证了我们方法的有效性。

Mar, 2024

软标签数据集蒸馏及文本数据集蒸馏

通过软标签同时提取图像和标签以减少数据集的大小，拓展算法至可用于文本数据，对于多个数据集和分类任务提高了 2-4% 的准确率。

Oct, 2019

小数据场景中高效自然语言理解的生成 - 蒸馏方法

通过 generation-distillation 训练方法，利用大型 fine-tuned 语言模型生成无标签训练数据，通过知识蒸馏技术将这些数据的知识转移给小型网络，从而缩小了预先训练 LM 和小型特定任务模型之间的性能差距，实现了使用更少的参数（仅为 BERT 的 300 倍）达到与 BERT 可比的性能。

Jan, 2020

图像 - 文本检索的多模态数据集精炼

基于轨迹匹配的多模态数据集提炼方法在视觉语言数据集上表现出显著的改进，可通过只用 100 个训练对（数量减少一个数量级）几乎使图像到文本的检索准确率翻倍。

Aug, 2023

文本分类的数据精炼

本研究提出了一种新的数据蒸馏方法，使用该方法在文本分类中将大型训练数据集压缩为更小的合成数据集，结果显示使用压缩后的数据集，在保持准确度的前提下只占原始数据集的 0.1%，获得了 90% 左右的性能。

Apr, 2021

蒸馏逐步！用更少的训练数据和更小的模型尺寸胜过更大的语言模型

本文介绍一种名为 “Distilling step-by-step” 的新机制，该机制通过在多任务训练框架内提取 LLM rationales 作为小型模型的附加监督来训练比 LLM 更小且表现更好的模型，并且使用远少于 finetuning 或 distillation 所需的标注数据。作者研究表明，相对于 finetuning 和 distillation，本机制使用更少的标注 / 非标注训练样例实现更好的性能；并且相对于 LLMs，使用明显更小的模型尺寸实现更好的性能；作者使用了 only 80% of available data on a benchmark task，就可以使用 770M T5 模型胜过 540B PaLM。

May, 2023

潜在数据集精炼与扩散模型

我们提出了一种结合潜在空间扩散模型和数据集精炼的潜在数据集精炼方法（LD3M），旨在解决机器学习面临的大型数据集和高分辨率图像生成的挑战，并在多个 ImageNet 子集和高分辨率图像上实验表明，LD3M 在 1 个和 10 个图像每类的情况下，相比最先进的精炼技术，提高了最高 4.8 个百分点和 4.2 个百分点的性能。

Mar, 2024

数据集压缩

本文中，我们探讨了数据集蒸馏的另一种形式，即基于固定模型的数据集蒸馏，通过使用少量的数据点近似原始数据的训练模型，此方法相对于其他方法具有优势，并在多个数据集上进行了实验证明

Nov, 2018

不可能的蒸馏：从低质量模型到高质量数据集与模型，用于摘要和释义

该论文提出了一种语言模型的教学方法，通过 Impossible Distillation 实现对原模型进行无监督的特定任务的 dataset 压缩，并通过该数据集训练出高质量的学生模型，在不需要海量数据、评测和人工干预的情况下，获得比 175B 参数 GPT-3 更好的性能的模型，以及包括 3.4M 个句子摘要和释义的高质量数据集 DIMSUM+。

May, 2023