探索多语言文本数据蒸馏
本研究提出了一种新的数据蒸馏方法,使用该方法在文本分类中将大型训练数据集压缩为更小的合成数据集,结果显示使用压缩后的数据集,在保持准确度的前提下只占原始数据集的 0.1%,获得了 90% 左右的性能。
Apr, 2021
基于轨迹匹配的多模态数据集提炼方法在视觉语言数据集上表现出显著的改进,可通过只用 100 个训练对(数量减少一个数量级)几乎使图像到文本的检索准确率翻倍。
Aug, 2023
通过训练一个语言模型生成信息丰富的合成训练样本作为文本数据,我们提出了一种新颖的文本数据集精炼方法,称为 Distilling dataset into Language Model (DiLM)。我们在各种文本分类数据集上评估了 DiLM,并展示了从 DiLM 中获得的合成数据集胜过当前核心集选择方法的结果。DiLM 在训练不同类型的模型和大型语言模型的上下文学习中取得了显著的泛化性能。
Mar, 2024
利用生成式文本到图像模型的最新进展,我们引入了数据集精炼使用扩散模型 (D3M) 作为一种新的数据集精炼范式。通过文本反演技术,我们利用学习到的文本提示为大型数据集创建简洁且有信息量的表示,以在固定的内存预算内有效地存储和推理新样本,并通过在不同内存预算下在各种计算机视觉基准数据集上进行的广泛实验验证了我们方法的有效性。
Mar, 2024
本文提出一种基于蒸馏的方法来提高多语言机器翻译的准确性,并在数据集上进行了实验,结果表明该方法可以通过训练单独的模型(即老师)来训练多语言模型,这使得一个模型即可具备处理多达 44 种不同语言的能力(且其准确性与单独模型相当甚至更优)。
Feb, 2019
该研究以实际数据集为基础,探索一种简单的数据精炼技术在原型软标签精炼中的潜力,通过集成优化步骤以提高分类准确性,并对不平衡度不同的数据集进行实验验证,发现该方法在数据精炼和数据增强方面的能力。
Mar, 2024
通过 generation-distillation 训练方法,利用大型 fine-tuned 语言模型生成无标签训练数据,通过知识蒸馏技术将这些数据的知识转移给小型网络,从而缩小了预先训练 LM 和小型特定任务模型之间的性能差距,实现了使用更少的参数(仅为 BERT 的 300 倍)达到与 BERT 可比的性能。
Jan, 2020