基于概念聚类复杂性的大规模网络数据集的有效剪枝

ICCVJan, 2024

基于概念聚类复杂性的大规模网络数据集的有效剪枝

Effective pruning of web-scale datasets based on complexity of concept clusters

Amro Abbas, Evgenia Rusak, Kushal Tirumala, Wieland Brendel, Kamalika Chaudhuri...

TL;DR利用大规模网络数据集进行训练会消耗可观的计算资源，本文研究通过修剪大规模多模态数据集来提高训练效率，并通过筛选高质量数据集以降低训练成本，从而在 ImageNet 数据集上取得了更好的性能。

Abstract

Utilizing massive web-scale datasets has led to unprecedented performance gains in machine learning models, but also imposes outlandish compute requirements for their training. In order to improve training and data efficiency, we here push the limits of →

web-scale datasets pruning multimodal datasets training cost imagenet

发现论文，激发创造

CLIP 的泛化性能主要源自高的训练 - 测试相似性吗？

通过对 LAION 数据集进行剪枝，证明 CLIP 模型的超出分布性能不仅依赖于训练数据的相似性，还受其他数据特性的影响。

Oct, 2023

CLIP: 用更少的数据更快地训练

该论文提出了一种名为 CLIP 的新型数据处理方法，该方法集成了课程学习和数据集修剪，通过迭代数据修剪来提高模型的学习精度和收敛速度。在人群密度估计模型上进行了大量实验，结果表明，将数据修剪视为课程学习的嵌入过程是新颖的，此方法可以通过减少收敛时间和提高泛化能力来提高训练的效率。

Dec, 2022

动态不确定性下的大规模数据集修剪

本文提出了一种数据集剪枝方法，利用预测不确定性和训练动态来生成一个信息量丰富的子集，从而用人口可承受的计算成本代替大规模数据集进行深度模型训练，实验结果表明该方法表现优于现有技术，对 ImageNet-1K 和 ImageNet-21K 数据集均获得了 75% 的无损压缩率。

Jun, 2023

超越神经网络规模定律：通过数据修剪击败幂律缩放

通过使用高质量的数据剪枝度量来破解神经网络权重学习数据集大小的幂律估计，可以实现更好的误差缩放。本文进行了实证研究，并测试了十种不同的数据剪枝度量，发现现有的大多数度量在 ImageNet 上表现不佳。作者因此开发了一种新的自监督剪枝度量，具有与最佳监督度量相当的性能。研究表明，发现好的数据剪枝度量可能是深度学习资源消耗大幅降低的一个可行途径。

Jun, 2022

使用预训练模型降低速率原则进行图像聚类

该研究提出了一种基于预训练模型的图像聚类方法 ——CLIP，并结合自我标注算法，取得较好效果。

Jun, 2023

基于层间校准的深度神经网络剪枝方法

本论文提出了一种用于深度神经网络的训练后权重修剪方法，其在生产环境中能够达到可接受的精度水平，并且足够快速以在桌面 CPU 或边缘设备等通用硬件上运行。该方法针对基于自动生成的合成分形图像的计算机视觉模型的无数据扩展，实现了数据免费的神经网络修剪，并在 ImageNet 数据集上获得了最新的数据免费神经网络修剪结果，对于 50％的稀疏率下使用 ResNet50 的 top@1 准确率丢失约为 1.5％。在使用真实数据时，能够获得在 8 位精度下稀疏率为 65％的 ResNet50 模型，而仅准确率下降约为 1％。

Apr, 2021

ConceptPrune: 通过技能神经元修剪在扩散模型中进行概念编辑

我们提出了一种简单而有效的无需训练的方法，ConceptPrune，通过首先确定在预训练模型中负责生成不良概念的关键区域，从而以权重修剪的方式便捷地实现概念去学习。实验证明，我们的方法能够高效擦除多个目标概念，仅修剪总权重的约 0.12%，并对多种白盒和黑盒对抗攻击具有鲁棒性。

May, 2024

图像超分辨率数据集修剪研究

通过基于损失值的度量对训练数据进行精心选择，可以改进图像超分辨率模型，挑战更多数据必然导致更好性能的传统观念。

Mar, 2024

Unicom: 用于图像检索的通用紧凑表示学习

本文研究了图像检索方法中预训练模型的应用，提出了一种基于 CLIP 模型从联合文本和视觉特征提取像素类描述符的方法，采用部分原型随机选择以及特征维度随机选择的方法来提高特征表示和冲突鲁棒性，最终在多个基准测试中取得了超过现有方法的性能表现。

Apr, 2023

缩放 (下降) CLIP: 数据、架构和训练策略的全面分析

研究通过受限的计算预算缩小规模的对比性语言 - 图像预训练（CLIP）的性能，分析数据、架构和训练策略三个维度，证明高质量训练数据的重要性，指出较小的数据集在一定计算限制下优于较大数据集，并提供选择基于 CNN 架构或 ViT 架构进行 CLIP 训练的指导。同时比较四种 CLIP 训练策略，并表明在可用计算资源上选择训练策略的不同，最后发现只使用一半的训练数据，CLIP + 数据增强可以实现与 CLIP 相当的性能。本研究为有效训练和部署 CLIP 模型提供了实用见解，使其在各种应用中更加可行和经济实惠。

Apr, 2024