- CVPR使用潜在分位数匹配的数据集压缩
我们提出了一种新的方法:潜变量分位数匹配(LQM),通过匹配潜变量的分位数来最小化两个分布之间的拟合优度检验统计量,以解决现有分布匹配方法的缺点。实证实验表明,LQM 在基于分布匹配的数据集压缩中与或优于先前的最新技术。此外,我们展示了 L - ICML改进数据集简化中的伪相关性
调研发现,数据集压缩过程中原始数据集中的颜色和背景偏差会被放大,而污染偏差会被抑制;为减少偏差放大,我们提出了一种基于样本重新加权方案的简单但高效方法,实证结果显示其有效性高于最先进的去偏方法。
- CondTSF:时间序列预测数据集简化的一行插件
基于对时间序列预测数据集的理论分析,我们提出了一种针对时间序列预测的数据集精简方法 CondTSF,通过将 CondTSF 插入到先前的数据集精简方法中,减小了使用全数据集和使用合成数据集训练的模型之间的预测差距,从而提高了性能。我们在八个 - IJCAIDANCE: 双视图数据集收缩的双视图分布对齐
从内部和外部视角揭示了当前基于分布匹配的方法在持久化训练和分布偏移方面的局限性,提出了一种新的基于双视图分布对齐的数据集简化方法 (DANCE),通过利用多个预训练模型来改进分布匹配,从而取得了状态的结果,并在保持与原始分布匹配相当的效率下 - 加速超参数搜索的数据集压缩
本文提出了一种针对超参数搜索的新型超参数校准数据集压缩(HCDC)算法,通过匹配通过隐式微分和高效逆 Hessian 逼近计算的超参数梯度来生成合成的验证数据集,实验证明该框架有效地维持了模型的验证性能排名,并加速了基于图像和图形的超参数 - 揭示数据集精简的设计空间
通过设计一个综合的框架,实现了软分类感知匹配和调整学习速率的策略,从而在小型和大型数据集压缩上建立了基准,显著提高了模型训练效率。
- 通过双域匹配实现时间序列分类的数据集压缩
提出了一种名为 CondTSC 的新框架,通过在时间和频率领域匹配代理目标,结合多视角数据增强、双域训练和双代理目标,以增强时间序列分类数据压缩过程的效果,并证明其优于其他基线模型,能够学习到符合原始数据分布并表现出理想特性的压缩合成数据集 - ICLR多尺度数据集精简
本文提出多尺寸数据集精简(Multisize Dataset Condensation,MDC)方法,通过将 N 个精简过程压缩成一个过程,以获取具有多种尺寸的数据集,并引入 “自适应子集损失” 以减轻 “子集退化问题”。实验证实了 MDC - 连接数据点:数据集筛选、差分隐私和对抗不确定性
我们的工作集中于通过与($\epsilon$,$\delta$)- 差分隐私的敌对不确定性选择最优噪声 $\epsilon$ 以理解数据集浓缩的基本机制,提出敌对不确定性是实现最优噪声水平 $\epsilon$ 的最合适方法,并采用满意的噪 - 压缩数据集下对抗训练的有效性研究
通过在数据集中找到最小有限覆盖(MFC)的方法,提出了一种新的考虑鲁棒性的数据集压缩方法,用于提高数据集压缩效率和对抗性鲁棒性,并证明其在三个数据集上具有更好的鲁棒性和性能平衡。
- 数据集精炼驱动的机器遗忘
改进机器遗忘,提出图像分类的数据集精简技术和创新性遗忘方案,平衡隐私保护、实用性和效率,并运用于抵御成员推理和模型逆推攻击,并去除精简模型中的数据以快速训练任何模型。
- AAAIECHO: 高阶分布对齐的高效数据集压缩
在深度学习时代,强调优化的数据集精简方法主导着目前最先进结果的可能性,但是它们的计算复杂度对于大规模数据集的实际应用造成了困难。为了提高效率,我们提出了一种新的基于高阶分布对⻬的分布匹配方法,通过进一步对齐真实和合成示例的表示分布的高阶矩来 - DCFL:非独立同分布感知数据压缩辅助联邦学习
分散式学习模式下的联邦学习存在数据分布不同的挑战,本论文提出了使用数据压缩和核对齐方法的 DCFL 算法,以解决该挑战,并在多个基准测试中展示了竞争性性能。
- 一次压缩,仅需两个规则:精简数据集的修剪法则
对于避免额外压缩过程具有计算禁止的情况,本文引入了 You Only Condense Once (YOCO) 与其它数据集压缩方法相比,在 CIFAR-10 数据集上取得了明显的准确度提升。
- 通过生成模型进行数据集简化
将大型数据集通过生成模型进行压缩,通过内类和间类损失优化样本集合关系,提高优化速度和适应大型数据集的能力。
- CVPR改进的分布匹配用于数据集浓缩
通过分布匹配的方法,我们提出了一种新的数据集精简方法,有效地减少了计算资源的使用,使得数据集精简能够应用于更大的数据集和模型。
- 压缩、恢复和重新标记:新视角下的 ImageNet 规模数据集简化
SRe$^2$L 是一种新的数据集压缩框架,可以在训练期间解耦模型和合成数据的双层优化,以处理各种规模的数据集、模型结构和图像分辨率,具有高分辨率训练、低训练成本和内存消耗,以及在任意评估网络结构下扩展的能力。
- 数据集压缩是否是医疗数据共享的万能药方?
本研究研究了数据集压缩(DC)在 AI 研究中分享保健数据的前景,并取得了有希望的结果,数据集压缩通过压缩容量和加速模型收敛,既实现了正确的去隐私化,又保留了原始的深度学习功能,同时保护数据隐私并加速模型收敛,DC 为多项愿望的保健数据共享 - 使用对比散度构建贝叶斯伪核心集
本文提出了利用基于能量的分布来建模合成数据后验概率的方法,通过对比度下降损失函数学习合成集合,实现了与数据压缩方法相似的性能,在多个数据集上表现优于以前的 BPC 方法。
- 利用潜空间知识分解和共享进行数据集压缩
本文提出了一种新方法,通过利用给定数据集中的规律,以生成模型的方式定义数据集,通过学习可压缩代码的潜在空间和解码器,可以显著地增加合成例子的数量并实现信息因式分解,从而在压缩比与生成质量之间提供更好的平衡。