基于概念聚类复杂性的大规模网络数据集的有效剪枝
该论文提出了一种名为 CLIP 的新型数据处理方法,该方法集成了课程学习和数据集修剪,通过迭代数据修剪来提高模型的学习精度和收敛速度。在人群密度估计模型上进行了大量实验,结果表明,将数据修剪视为课程学习的嵌入过程是新颖的,此方法可以通过减少收敛时间和提高泛化能力来提高训练的效率。
Dec, 2022
本文提出了一种数据集剪枝方法,利用预测不确定性和训练动态来生成一个信息量丰富的子集,从而用人口可承受的计算成本代替大规模数据集进行深度模型训练,实验结果表明该方法表现优于现有技术,对 ImageNet-1K 和 ImageNet-21K 数据集均获得了 75% 的无损压缩率。
Jun, 2023
通过使用高质量的数据剪枝度量来破解神经网络权重学习数据集大小的幂律估计,可以实现更好的误差缩放。本文进行了实证研究,并测试了十种不同的数据剪枝度量,发现现有的大多数度量在 ImageNet 上表现不佳。作者因此开发了一种新的自监督剪枝度量,具有与最佳监督度量相当的性能。研究表明,发现好的数据剪枝度量可能是深度学习资源消耗大幅降低的一个可行途径。
Jun, 2022
本论文提出了一种用于深度神经网络的训练后权重修剪方法,其在生产环境中能够达到可接受的精度水平,并且足够快速以在桌面 CPU 或边缘设备等通用硬件上运行。该方法针对基于自动生成的合成分形图像的计算机视觉模型的无数据扩展,实现了数据免费的神经网络修剪,并在 ImageNet 数据集上获得了最新的数据免费神经网络修剪结果,对于 50% 的稀疏率下使用 ResNet50 的 top@1 准确率丢失约为 1.5%。在使用真实数据时,能够获得在 8 位精度下稀疏率为 65% 的 ResNet50 模型,而仅准确率下降约为 1%。
Apr, 2021
我们提出了一种简单而有效的无需训练的方法,ConceptPrune,通过首先确定在预训练模型中负责生成不良概念的关键区域,从而以权重修剪的方式便捷地实现概念去学习。实验证明,我们的方法能够高效擦除多个目标概念,仅修剪总权重的约 0.12%,并对多种白盒和黑盒对抗攻击具有鲁棒性。
May, 2024
本文研究了图像检索方法中预训练模型的应用,提出了一种基于 CLIP 模型从联合文本和视觉特征提取像素类描述符的方法,采用部分原型随机选择以及特征维度随机选择的方法来提高特征表示和冲突鲁棒性,最终在多个基准测试中取得了超过现有方法的性能表现。
Apr, 2023
研究通过受限的计算预算缩小规模的对比性语言 - 图像预训练(CLIP)的性能,分析数据、架构和训练策略三个维度,证明高质量训练数据的重要性,指出较小的数据集在一定计算限制下优于较大数据集,并提供选择基于 CNN 架构或 ViT 架构进行 CLIP 训练的指导。同时比较四种 CLIP 训练策略,并表明在可用计算资源上选择训练策略的不同,最后发现只使用一半的训练数据,CLIP + 数据增强可以实现与 CLIP 相当的性能。本研究为有效训练和部署 CLIP 模型提供了实用见解,使其在各种应用中更加可行和经济实惠。
Apr, 2024