- 通过极小极大扩散实现高效数据集精炼
通过使用生成扩散技术计算替代数据集,本研究提出了一种新的数据集提炼方法,以增强生成图像的代表性和多样性,并在要求更少计算资源的同时,实现了最新的验证性能。
- QuickDrop: 集成数据集蒸馏的高效联邦去学习
Federated Unlearning (FU) 通过 QuickDrop 方法,利用 dataset distillation (DD) 在 Federated Learning (FL) 模型中删除特定的训练数据,从而显著降低计算开销 - 基于频域的数据集精炼
本文提出了一种新颖的参数化方法,利用频域对大型原始数据集进行数据集提炼,通过频谱变换优化数据实例的频率表示,以在有限的预算内操作并更好地保留原始数据集的信息。此外,通过与现有方法的正交兼容性,验证了该方法在不同基准数据集的评估场景中持续改善 - 简单数据集压缩
通过 RaT-BPTT 方法解决数据集精炼的核心问题,从而建立起一种新的数据集精炼技术,用于生成包含近乎最佳性能子集的精炼数据集。
- 数据集精简的顺序子集匹配
通过提出逐步子集匹配 (SeqMatch) 的数据集提炼策略,该研究解决了静态优化方法导致的合作问题,增强了性能,优于现有技术在多个数据集上的表现。
- ICCVDREAM+:双向代表匹配的高效数据集精炼
通过双向代表性匹配的数据集提炼策略(DREAM+),选择代表性的原始图像进行匹配,并且在不影响性能的情况下,显著减少了数据集提炼迭代的次数。
- 通过与平滑高质量专家轨迹的对齐实现高效的数据集精炼
本文提出了一种数据集蒸馏的方法,通过集成剪断损失和梯度惩罚来调整专家轨迹参数的变化速率,并提出代表性初始化、均衡内环损失和权重摄动等增强策略,以解决现有方法在训练大型机器学习模型时存在的问题。实验结果表明,该方法在各种规模、大小和分辨率的数 - 数据蒸馏如同伏特加:多次蒸馏以提高质量
通过使用逐步数据集提取方法,这篇研究论文提出了一种在训练期间使用多个合成子集来捕捉深度网络的训练动态,并在不增加训练时间的情况下显著改善现有数据集提取方法的性能,同时还首次实现了生成更大的合成数据集。
- 自监督集合表示学习用于无监督元学习
通过合成样本,提取特征和目标特征之间的均方误差来研究自监督学习中数据集蒸馏和特征提取的方法,并在转移学习中进行了验证。
- 基于难度对齐轨迹匹配的无损数据集蒸馏
开发一种能随着合成数据集规模增长而保持有效的新型数据集精馏方法,通过早期或晚期的轨迹匹配,成功将轨迹匹配方法扩展到更大的合成数据集,首次实现了无损数据集精馏。
- 预训练模型是否能在数据集精炼中提供帮助?
数据集精炼(DD)是一种将大规模原始数据集的知识封装到小型合成数据集中进行高效训练的突出技术。与此同时,预训练模型(PTMs)作为知识库具有从原始数据集中获取的广泛信息。我们通过初步实验验证了 PTMs 对 DD 的贡献,然后系统研究了 P - ICCVDataDAM:高效数据集提炼与注意力匹配
采用高效的数据集提炼技术 (DataDAM),通过匹配真实数据和合成数据的不同层级生成的空间关注图,我们在多个数据集上实现了最先进的性能同时降低了训练成本。
- 多源领域自适应遇上数据集蒸馏通过数据集字典学习
该论文探讨了机器学习中两个问题的交集:多源领域适应 (MSDA) 和数据集精炼 (DD)。通过采用之前 MSDA 领域的作品以及 DD 方法的分布匹配,在四个基准测试中进行了深入的实验,表明即使每类仅有 1 个样本,也能够获得最先进的适应性 - 数据集量化
用于训练任何神经网络架构的新的数据集压缩方法 (DQ) 能够通过压缩大规模数据集生成精简小数据集,实现了无损模型训练的最新压缩比,可用于视觉任务和语言任务。
- 图像 - 文本检索的多模态数据集精炼
基于轨迹匹配的多模态数据集提炼方法在视觉语言数据集上表现出显著的改进,可通过只用 100 个训练对(数量减少一个数量级)几乎使图像到文本的检索准确率翻倍。
- 走向可靠的数据集提纯
通过同时考虑数据集精简和外部样本检测,我们提出了一种称为可信数据集精简的新范例,通过提取内部样本和异常样本,精炼的数据集可以训练能够进行内部分类和外部样本检测的模型。
- 数据集精简遇见可证明的子集选择
本文提出了一种在数据集精馏中初始化样品集的可证明的基于采样的方法,并将数据子集选择的思想与数据集精馏相结合,通过相对贡献的实例的概念优化性能。
- 高效深度哈希检索:通过特征嵌入匹配压缩数据
本文提出了一种有效的压缩框架,该框架通过匹配合成集和真实集之间的特征嵌入来增强特征的多样性,并结合早期增强模型和多形态的策略,显著提高了性能和效率,比现有的基准方法都要优越。
- 从大型矿石中提炼金:通过关键样本选择实现高效数据集精馏
本文提出了一种基于信息理论和样本价值的新的数据集精简方法,经过全面的数据选择分析,该方法能够极大的降低训练成本,扩展现有的精简算法到更大规模、更多元化的数据集上,并且能够在多种不同类型的数据集上持续提高性能。
- 关于蒸馏集合的大小和逼近误差
本文从理论角度探究基于核岭回归(KRR)的数据集精简方法,证明了在随机傅里叶特征空间中存在与原始数据解重合的一小组实例,利用这些实例可以生成 KRR 解,从而实现对完整输入数据的解近似优化。