D2 剪枝:数据剪枝中的信息传递平衡多样性和难度
在这项工作中,我们旨在解决传输学习的数据集剪枝问题,即如何通过识别和删除冗余的训练样本,提高预训练效率并在下游目标任务中达到无损调优准确度。我们建立了统一的观点,将数据集剪枝与传输学习相结合,并发现现有的数据集剪枝方法不适用于传输学习范式。我们提出了两种新的数据集剪枝方法,即标签映射和特征映射,分别针对监督预训练和自我监督预训练设置,通过重新审视源 - 目标领域映射的视角重新定义了数据集剪枝问题。此外,我们还证明了我们的方法在许多传输学习任务上的有效性。我们展示了源数据类别可以剪枝达到 40% 至 80%,而不牺牲下游性能,在预训练阶段实现了显著的 2 至 5 倍加速。此外,我们的方法具有广泛的适用性,可以改进其他计算密集型的传输学习技术,例如对抗性预训练。
Oct, 2023
该研究提出了一种名为 TDDS(Temporal Dual-Depth Scoring)的新型数据集修剪方法,通过利用双深度策略,在综合考虑训练动态的同时,识别出代表性样本,从而解决了现有方法在数据集修剪中通常产生泛化性差的问题。通过在 CIFAR 和 ImageNet 数据集上的广泛实验表明,TDDS 方法在 CIFAR-100 数据集上仅利用 10% 的训练数据即可达到 54.51% 准确率,相比随机选择提高了 7.83%,比其他比较方法至少提高了 12.69%。
Nov, 2023
通过直接解决剪枝带来的不一致影响,我们的研究提出了一种约束优化方法,通过在每个子组中限制密集模型和稀疏模型之间的准确度变化来确定剪枝模型是否达到可接受的不一致水平。实验证实了我们的技术在解决涉及大型模型和数百个受保护子组的问题上具有可靠的可扩展性。
Oct, 2023
在数据密集型模型的时代,精心选择训练数据对于减轻深度学习的昂贵成本至关重要。本文通过删除冗余或无信息的样本来解决这个问题,并提出了一个公平感知的修剪方法,其在标准计算机视觉基准上展示了良好的性能,与现有算法形成鲜明对比。
Apr, 2024
本文研究一次性 coreset 选择,提出一种新的度量方法来度量训练数据集在特定分布下的覆盖率,将整体数据覆盖率与每个样本的重要性同时考虑,提出了 Coverage-centric Coreset Selection(CCS)方法,利用 CCS 在高精简率(例如 90%)时得到的精度显著高于之前的 SOTA 方法以及随机选择方法,并且在低精简率时具有类似的精度。
Oct, 2022
本研究提出了一种基于动态数据修剪的方法,使用 EL2N 度量和初始微调阶段,在保持完整准确性的同时,可将数据量减少 50%~80% 以大大减少微调时间,并在 GLUE 基准测试和四个联合 NLU 数据集上展现出更好的时间 - 准确性平衡。
Jun, 2023
该研究提出一种基于 Löwner 椭球体和 Caratheodory 定理的新型、强鲁棒性的框架,在模型权重的温和假设下计算 Coresets,它同时是数据无关的,适用于各种网络和数据集,并得到理论支持。实验结果表明,该方法在各种网络和数据集上的效果优于现有的基于 Coreset 的神经修剪方法。
Sep, 2022