图像 - 文本检索的多模态数据集精炼
利用生成式文本到图像模型的最新进展,我们引入了数据集精炼使用扩散模型 (D3M) 作为一种新的数据集精炼范式。通过文本反演技术,我们利用学习到的文本提示为大型数据集创建简洁且有信息量的表示,以在固定的内存预算内有效地存储和推理新样本,并通过在不同内存预算下在各种计算机视觉基准数据集上进行的广泛实验验证了我们方法的有效性。
Mar, 2024
本研究提出了一种名为 DCD 的新型动态对比蒸馏框架,用于压缩大型 VLP 模型以改善跨模态图像文本检索(ITR)的效率和部署,其中涉及多模态对比学习、动态蒸馏等技术,实验证明在 MS-COCO 和 Flickr30K 基准上,将 DCD 策略应用于两种最先进的视觉语言预训练模型 VILT 和 METER 可加快推断至少 129 倍。
Jul, 2022
通过使用基于语言模型的学习方法,我们在多语言文本分类数据集上提出了几种数据蒸馏技术,来增强文本数据蒸馏领域中的跨体系结构泛化能力,并分析了它们在分类强度和跨体系结构泛化方面的性能,也研究了这些方法生成的数据摘要的语言特定公平性。
Aug, 2023
用单层优化的对抗性框架,从大型原始数据集中提取关键信息以合成更小的精简数据集并保持效果,可以在最小的 GPU 内存消耗下获得高测试准确率并在跨架构泛化中表现出优越性。
Dec, 2023
通过训练一个语言模型生成信息丰富的合成训练样本作为文本数据,我们提出了一种新颖的文本数据集精炼方法,称为 Distilling dataset into Language Model (DiLM)。我们在各种文本分类数据集上评估了 DiLM,并展示了从 DiLM 中获得的合成数据集胜过当前核心集选择方法的结果。DiLM 在训练不同类型的模型和大型语言模型的上下文学习中取得了显著的泛化性能。
Mar, 2024
本论文提出了一个基于课程设置的数据集蒸馏框架,通过将从简单到复杂的课程进行逐步蒸馏,合理处理合成图像的生成和评估,进一步利用对抗优化改进图像的代表性,提高其在不同神经网络体系结构下的泛化能力和抗噪性,实现了大规模数据集蒸馏的新突破。
May, 2024
提出了一种用于多模态数据集精简的低秩相似度挖掘(LoRS)方法,通过同时挖掘图像 - 文本对中的准确相似度矩阵,并利用低秩因式分解实现高效和可伸缩性,在现有算法上取得了显著的改进,对于视觉语言数据集精简领域做出了重要贡献。
Jun, 2024
这篇论文探索了利用大规模预训练的多个文本编码器设计的算法,提出了一种新颖的综合蒸馏方法 TeachText,并将其拓展应用到视频检索上,在多个视频检索基准上超过了现有技术,而且在测试时不会增加计算负荷。
Apr, 2021