探索多语言文本数据蒸馏

Aug, 2023

Exploring Multilingual Text Data Distillation

Shivam Sahni, Harsh Patel

TL;DR通过使用基于语言模型的学习方法，我们在多语言文本分类数据集上提出了几种数据蒸馏技术，来增强文本数据蒸馏领域中的跨体系结构泛化能力，并分析了它们在分类强度和跨体系结构泛化方面的性能，也研究了这些方法生成的数据摘要的语言特定公平性。

Abstract

With the rise of deep learning, large datasets and complex models have become common, requiring significant computing power. To address this, data distillation has emerged as a technique to quickly train models with lower memory and time requirements. However, →

deep learning data distillation multilingual text classification language-model-based learning cross-architecture generalization

发现论文，激发创造

文本分类的数据精炼

本研究提出了一种新的数据蒸馏方法，使用该方法在文本分类中将大型训练数据集压缩为更小的合成数据集，结果显示使用压缩后的数据集，在保持准确度的前提下只占原始数据集的 0.1%，获得了 90% 左右的性能。

Apr, 2021

图像 - 文本检索的多模态数据集精炼

基于轨迹匹配的多模态数据集提炼方法在视觉语言数据集上表现出显著的改进，可通过只用 100 个训练对（数量减少一个数量级）几乎使图像到文本的检索准确率翻倍。

Aug, 2023

DiLM：文本级数据集蒸馏中的将数据集蒸馏为语言模型

通过训练一个语言模型生成信息丰富的合成训练样本作为文本数据，我们提出了一种新颖的文本数据集精炼方法，称为 Distilling dataset into Language Model (DiLM)。我们在各种文本分类数据集上评估了 DiLM，并展示了从 DiLM 中获得的合成数据集胜过当前核心集选择方法的结果。DiLM 在训练不同类型的模型和大型语言模型的上下文学习中取得了显著的泛化性能。

Mar, 2024

一个类别一个提示：使用扩散模型进行数据集精炼

利用生成式文本到图像模型的最新进展，我们引入了数据集精炼使用扩散模型 (D3M) 作为一种新的数据集精炼范式。通过文本反演技术，我们利用学习到的文本提示为大型数据集创建简洁且有信息量的表示，以在固定的内存预算内有效地存储和推理新样本，并通过在不同内存预算下在各种计算机视觉基准数据集上进行的广泛实验验证了我们方法的有效性。

Mar, 2024

改进数据集精炼的跨架构泛化

使用模型池方法进行数据蒸馏，结合知识蒸馏技术进行测试，从而创造出小规模合成数据集，在性能上表现优于现有方法。

Feb, 2024

多语言神经机器翻译与知识蒸馏

本文提出一种基于蒸馏的方法来提高多语言机器翻译的准确性，并在数据集上进行了实验，结果表明该方法可以通过训练单独的模型（即老师）来训练多语言模型，这使得一个模型即可具备处理多达 44 种不同语言的能力（且其准确性与单独模型相当甚至更优）。

Feb, 2019

探索基于样本原型的软标签数据蒸馏对不平衡数据分类的潜力

该研究以实际数据集为基础，探索一种简单的数据精炼技术在原型软标签精炼中的潜力，通过集成优化步骤以提高分类准确性，并对不平衡度不同的数据集进行实验验证，发现该方法在数据精炼和数据增强方面的能力。

Mar, 2024

小数据场景中高效自然语言理解的生成 - 蒸馏方法

通过 generation-distillation 训练方法，利用大型 fine-tuned 语言模型生成无标签训练数据，通过知识蒸馏技术将这些数据的知识转移给小型网络，从而缩小了预先训练 LM 和小型特定任务模型之间的性能差距，实现了使用更少的参数（仅为 BERT 的 300 倍）达到与 BERT 可比的性能。

Jan, 2020

软标签数据集蒸馏及文本数据集蒸馏

通过软标签同时提取图像和标签以减少数据集的大小，拓展算法至可用于文本数据，对于多个数据集和分类任务提高了 2-4% 的准确率。

Oct, 2019

数据集精炼的全面研究：性能、隐私、鲁棒性和公平性

通过分析压缩数据集技术对隐私、模型鲁棒性和公平性的影响，本文提出了一个评估这一技术的大规模基准测评框架。

May, 2023