D2 剪枝：数据剪枝中的信息传递平衡多样性和难度

Oct, 2023

D2 剪枝：数据剪枝中的信息传递平衡多样性和难度

D2 Pruning: Message Passing for Balancing Diversity and Difficulty in Data Pruning

Adyasha Maharana, Prateek Yadav, Mohit Bansal

TL;DR通过使用 D2 修剪算法，将数据集表示为无向图，并进行前向和反向消息传递，综合考虑数据的多样性和难度评分来选择 Coreset，该方法在多个视觉和语言数据集上超越了现有最先进方法的 Coreset 选择效果，对于剪枝率高达 70%，使用 D2 修剪算法来过滤大型多模态数据集可以增加数据集的多样性并改善预训练模型的一般化能力。

Abstract

Analytical theories suggest that higher-quality data can lead to lower test errors in models trained on a fixed data budget. Moreover, a model can be trained on a lower compute budget without compromising performance if a dataset can be stripped of its redundancies. →

higher-quality data coreset selection data diversity difficulty ranking d2 pruning

发现论文，激发创造

选择性推动生产力：提高迁移学习效率的高效数据集修剪

在这项工作中，我们旨在解决传输学习的数据集剪枝问题，即如何通过识别和删除冗余的训练样本，提高预训练效率并在下游目标任务中达到无损调优准确度。我们建立了统一的观点，将数据集剪枝与传输学习相结合，并发现现有的数据集剪枝方法不适用于传输学习范式。我们提出了两种新的数据集剪枝方法，即标签映射和特征映射，分别针对监督预训练和自我监督预训练设置，通过重新审视源 - 目标领域映射的视角重新定义了数据集剪枝问题。此外，我们还证明了我们的方法在许多传输学习任务上的有效性。我们展示了源数据类别可以剪枝达到 40% 至 80%，而不牺牲下游性能，在预训练阶段实现了显著的 2 至 5 倍加速。此外，我们的方法具有广泛的适用性，可以改进其他计算密集型的传输学习技术，例如对抗性预训练。

Oct, 2023

重复随机抽样减少学习时间达到准确性

本文研究了训练神经网络的数据选择方法，提出了一种名为 RS2 的方法，利用随机抽样的方式显著提高了数据训练的效率，并在四个数据集上得到了验证。

May, 2023

基于核集的数据独立神经剪枝

这篇论文提出了一种基于 coreset 方法的神经剪枝算法，可在不影响准确性的情况下压缩神经网络，并在 MNIST 数据集上进行了实验。

Jul, 2019

跨训练进度：时态双层深度评分（TDDS）用于增强数据集修剪

该研究提出了一种名为 TDDS（Temporal Dual-Depth Scoring）的新型数据集修剪方法，通过利用双深度策略，在综合考虑训练动态的同时，识别出代表性样本，从而解决了现有方法在数据集修剪中通常产生泛化性差的问题。通过在 CIFAR 和 ImageNet 数据集上的广泛实验表明，TDDS 方法在 CIFAR-100 数据集上仅利用 10% 的训练数据即可达到 54.51% 准确率，相比随机选择提高了 7.83%，比其他比较方法至少提高了 12.69%。

Nov, 2023

平衡行动：在稀疏模型中约束不平等影响

通过直接解决剪枝带来的不一致影响，我们的研究提出了一种约束优化方法，通过在每个子组中限制密集模型和稀疏模型之间的准确度变化来确定剪枝模型是否达到可接受的不一致水平。实验证实了我们的技术在解决涉及大型模型和数百个受保护子组的问题上具有可靠的可扩展性。

Oct, 2023

强健数据修剪：揭示和克服隐性偏见

在数据密集型模型的时代，精心选择训练数据对于减轻深度学习的昂贵成本至关重要。本文通过删除冗余或无信息的样本来解决这个问题，并提出了一个公平感知的修剪方法，其在标准计算机视觉基准上展示了良好的性能，与现有算法形成鲜明对比。

Apr, 2024

高裁剪率下基于覆盖率的核心集选择

本文研究一次性 coreset 选择，提出一种新的度量方法来度量训练数据集在特定分布下的覆盖率，将整体数据覆盖率与每个样本的重要性同时考虑，提出了 Coverage-centric Coreset Selection（CCS）方法，利用 CCS 在高精简率（例如 90%）时得到的精度显著高于之前的 SOTA 方法以及随机选择方法，并且在低精简率时具有类似的精度。

Oct, 2022

参数高效的 Diff 剪枝用于偏差缓解

介绍了一种模块化的架构，应用 DiffPruning 和对抗训练技术在保持语言模型存储效率的同时，减少预设受保护属性对推理结果的影响。

May, 2022

数据饮食中的 NLU: 动态数据子集选择用于 NLP 分类任务

本研究提出了一种基于动态数据修剪的方法，使用 EL2N 度量和初始微调阶段，在保持完整准确性的同时，可将数据量减少 50%~80% 以大大减少微调时间，并在 GLUE 基准测试和四个联合 NLU 数据集上展现出更好的时间 - 准确性平衡。

Jun, 2023

通过核集和凸几何剪枝神经网络：无假设化

该研究提出一种基于 Löwner 椭球体和 Caratheodory 定理的新型、强鲁棒性的框架，在模型权重的温和假设下计算 Coresets，它同时是数据无关的，适用于各种网络和数据集，并得到理论支持。实验结果表明，该方法在各种网络和数据集上的效果优于现有的基于 Coreset 的神经修剪方法。

Sep, 2022