- DD-RobustBench: 数据集提炼的敌对鲁棒性基准测试
数据集蒸馏是一种高级技术,旨在将数据集压缩为较小的对应物,同时保持强大的训练性能。本研究引入了一个全面的基准,用于评估统一方式下研究到目前为止最广泛的蒸馏数据集的对抗鲁棒性。通过结合更广泛的数据集蒸馏方法、包括 TESLA 和 SRe2L - 将数据集精简至不足一张图
通过压缩数据集,将数据集装入一张海报,我们提出了一种新的方法,可以使用小于每类一张图像的方式,实现与现有方法相媲美甚至更好的性能。
- 通过曲率正则化实现对抗鲁棒的数据集精炼
研究提出了一种新方法,通过在蒸馏过程中加入曲率正则化,使得在生成的数据集上训练的模型在保持高准确性的同时获得更好的敌对鲁棒性,而且计算开销更小。实验证明该方法在准确性和鲁棒性方面都优于标准的敌对训练,并能生成经受住各种敌对攻击的鲁棒蒸馏数据 - 一个类别一个提示:使用扩散模型进行数据集精炼
利用生成式文本到图像模型的最新进展,我们引入了数据集精炼使用扩散模型 (D3M) 作为一种新的数据集精炼范式。通过文本反演技术,我们利用学习到的文本提示为大型数据集创建简洁且有信息量的表示,以在固定的内存预算内有效地存储和推理新样本,并通过 - 潜在数据集精炼与扩散模型
我们提出了一种结合潜在空间扩散模型和数据集精炼的潜在数据集精炼方法(LD3M),旨在解决机器学习面临的大型数据集和高分辨率图像生成的挑战,并在多个 ImageNet 子集和高分辨率图像上实验表明,LD3M 在 1 个和 10 个图像每类的情 - 分布式数据集蒸馏与子任务分解
神经网络在从特定任务的数据集中进行训练时学到了什么?数据集精炼是合成这种知识的中心思想,我们提出了分布式数据集精炼(D3)方法,使用最小的充分类别统计信息,与解码器一起使数据集转化为一种更节省内存的分布式表示方法。通过对数据集进行分割、并行 - 改进数据集精炼的跨架构泛化
使用模型池方法进行数据蒸馏,结合知识蒸馏技术进行测试,从而创造出小规模合成数据集,在性能上表现优于现有方法。
- 组分布稳健数据集蒸馏及风险最小化
通过结合聚类和风险度量的最小化算法,实现数据集精炼,具备对子群体的有效泛化和稳健性,为解决合成数据集在面对低人口密度地区样本时表现优秀的问题提供了理论依据和数值实验验证。
- 重视感知的自适应数据集蒸馏
我们提出了一种新颖的数据集精炼方法,可以构建小型信息丰富的数据集,以保留大型原始数据集的信息。这种方法可以改善数据集精炼的性能,通过自动分配不同网络参数的重要性权重来合成更加稳健的精炼数据集,在多个基准数据集上表现优于其他最先进的数据集精炼 - MIM4DD:数据集精炼的互信息最大化
我们引入互信息作为衡量合成数据集与真实数据集之间共享信息量的度量标准,并通过对比学习框架内的新设计的可优化目标来数值化地最大化互信息,从而更新合成数据集。实验证明,这种方法可以作为现有先进方法的附加模块来实现数据集精简。
- 通过对抗预测匹配进行数据集压缩
用单层优化的对抗性框架,从大型原始数据集中提取关键信息以合成更小的精简数据集并保持效果,可以在最小的 GPU 内存消耗下获得高测试准确率并在跨架构泛化中表现出优越性。
- 通过实证研究提升数据集蒸馏的跨架构泛化能力
通过实证研究,本文提出了一种新颖的评估方法 ELF,通过利用蒸馏模型的中间层特征进行跨架构评估,从无偏重的知识中学习,以提高当前 DD 方法的跨架构泛化能力。
- 关于精简数据集的多样性和真实性:一种高效的数据集精简范式
用于大规模真实数据集的数据集压缩方法 RDED 能够在短短 7 分钟内将完整的 ImageNet-1K 压缩为每类只有 10 张图像的小型数据集,并在单个 RTX-4090 GPU 上以 42% 的 Top-1 精度实现了显著的性能提升(而 - 通过深度生成潜变量进行数据集精炼的联邦学习潜力释放
基于深度生成模型的高效联邦学习数据集精简框架,在服务器端显著减少本地设备的计算和通信需求,提高客户端隐私,同时有效降低资源利用,通过理论分析和实证证据验证了其在高度异构的联邦学习环境中相较于非数据集精简技术的优越性,准确性提升高达 40%, - 与图像共舞:通过静态动态解缠实现视频浓缩
通过对视频进行数据蒸馏,提出了一种方法来解决视频中的时间维度问题,该方法首先将视频转化为静态图像作为静态内存,然后使用可学习的动态内存块补偿动态和运动信息,以在不同规模的视频数据集上实现最先进的表现。
- 大数据时代的数据集精炼
使用课程数据增强方法,在大规模的 ImageNet-1K 和 ImageNet-21K 数据集上实现了最佳准确度,并在准确度上超越了目前的最先进模型。
- 使用 Wasserstein 度量的数据集精馏
利用 Wasserstein 距离进行数据集简化,通过嵌入合成数据到预训练分类模型的特征空间进行分布匹配,实现了数据集简化的新的最先进性能。
- 通过数据集提炼发现星系特征
使用神经网络和数据集精炼技术研究星系分类任务中的形态特征及其可视化,同时自适应匹配轨迹算法改进了计算机视觉性能。
- 重新思考数据集蒸馏中的后门攻击:基于核方法的视角
基于核方法的数据集精简是数据效率提升的一种潜在手段,本研究通过理论研究与实验分析,提出了专门用于数据集精简的两种新的基于理论的触发器模式生成方法,证明了我们的基于优化的触发器设计框架可以有效地实施反向攻击,并验证了使用我们方法开发的触发器在 - 潜空间中的数据集蒸馏
该论文在新兴的数据集精华领域将数据集提炼的过程从传统的像素空间转移到潜变空间,通过使用预训练的通用自动编码器对潜变空间中的潜变编码进行编码,从而解决高时间复杂度、高空间复杂度和低信息紧凑性的问题,以显著降低时间和空间开销,提高性能。