鲁棒微调的可训练投影梯度方法

CVPRMar, 2023

Trainable Projected Gradient Method for Robust Fine-tuning

Junjiao Tian, Xiaoliang Dai, Chih-Yao Ma, Zecheng He, Yen-Cheng Liu...

TL;DR本文提出了可训练的投影梯度方法，自动学习每层的约束条件以进行精细调整的正则化，通过维护一组投影半径并通过权重投影加强它们，同时使用双层优化自动学习最佳投影半径组合，提高针对发散数据的鲁棒性能，代码可以在 github 上找到。

Abstract

Recent studies on transfer learning have shown that selectively fine-tuning a subset of layers or customizing different learning rates for each layer can greatly improve robustness to →

transfer learning fine-tuning regularization out-of-distribution neural networks

发现论文，激发创造

高效可训练投影用于鲁棒微调

通过投影的方法，我们提出了一种快速可训练的投影算法（FTP）来实现鲁棒精调，该算法能够快速学习每层投影约束，相较于之前的工作，我们的基准测试中速度提升了 35％。我们通过对四个不同视觉任务和五个不同的预训练模型进行的经验性研究表明，FTP 在 OOD 数据集，包括领域转移和自然失真方面表现出优越鲁棒性。此外，我们展示了 FTP 在低标签和持续学习设置等其他学习场景中的广泛适用性和益处。

Oct, 2023

神经网络微调的改进正则化和鲁棒性

通过 fine-tuning 算法的正则化与 self-labeling 方法相互插值，从而提高在小数据集下的图像与文本分类表现。

Nov, 2021

仅需简单微调：通过对抗微调实现鲁棒深度学习

本研究提出了一种基于缓慢上升和快速下降型学习率调度策略的对抗微调方法，该方法通过有效的学习率调度策略显著降低了计算成本，同时提高了深度神经网络的准确性和鲁棒性。实验结果表明，该方法在 CIFAR-10，CIFAR-100 和 ImageNet 数据集上优于先前的最先进方法，同时将计算成本降低了 8-10 倍，并能够改善任何经过预训练的深度神经网络的鲁棒性，而无需从头开始训练模型。

Dec, 2020

SMART: 面向预训练自然语言模型的强健高效微调技术

本文提出一种基于 Bregman 的 Trust-Region 优化的平滑正则化框架，用于更加有效地对预训练语言模型进行微调，避免过拟合和知识遗忘，通过实验表明在多项 NLP benchmarks 上达到了最新的性能水平。

Nov, 2019

边缘计算下的局部梯度学习

提出了一种名为 tpSGD 的优化算法，该算法可以在边缘设备上进行学习，并且收敛速度快，具有低内存占用，并且可以训练任意的损失函数和反向传播神经网络，避免了梯度保留的需求，实现了内存优化。实验结果表明，该方法相对于其他梯度自由算法具有更好的性能表现。

Aug, 2022

基于距离的深度网络正则化 Fine-Tuning

本文介绍了一种基于权重移动距离的神经网络泛化界定方法，提出了一种基于传递学习的初始权重的微调算法，通过在半径较小的搜索空间内限制假设类来实现更好的泛化性能，并且通过实验证实了该算法的有效性和优越性。

Feb, 2020

PGrad: 学习主要梯度用于领域泛化

本文介绍了一种名为 PGrad 的新颖领域泛化培训策略，通过学习一个强大的梯度方向，并聚合采样轨迹的主方向，以忽略领域相关噪音信号并以主要参数动态元素为基础更新所有训练领域增强网络泛化能力与稳健性，该策略的实验表现在七个数据集上具有竞争力。

May, 2023

TRGP: 连续学习的信赖区域梯度投影

提出了一种新的 TRGP 持续学习方法来解决 catastrophic forgetting 问题，使用 trust region 选择最相关的旧任务，通过 scaled weight projection 聪明地重用旧任务的冻结权重，实现了较高的知识转移效果。

Feb, 2022

YOLOv9：使用可编程梯度信息学习您想要学习的内容

当前的深度学习方法主要关注如何设计最合适的目标函数，以使得模型的预测结果最接近真实情况，同时需要设计一种适当的架构来获取足够的信息进行预测。然而现有的方法忽视了一个事实，即当输入数据经历逐层特征提取和空间变换时，会丢失大量的信息。本文主要研究数据在通过深度网络传输时的信息损失问题，即信息瓶颈和可逆函数。我们提出了可编程梯度信息（PGI）的概念，以应对深度网络需求多样的变化来实现多个目标。PGI 能够为目标任务提供完整的输入信息来计算目标函数，从而获取可靠的梯度信息来更新网络权重。此外，我们设计了一种新的轻量级网络架构 —— 广义高效层聚合网络（GELAN），基于梯度路径规划。GELAN 的架构证明了在轻量级模型上 PGI 取得了更好的结果。我们在基于 MS COCO 数据集的目标检测任务上验证了 GELAN 和 PGI，结果显示 GELAN 只使用传统的卷积算子就能比基于深度可分离卷积的最新方法实现更好的参数利用率。PGI 可用于各种模型，从轻量级到大型模型。它可以获取完整信息，从而使得从头开始训练的模型比使用大型数据集预训练的最新模型获得更好的结果，对比结果详见图 1。源代码位于：[指定的 URL]

Feb, 2024

利用缩放梯度投影进行连续学习

本研究提出了一种基于 Scaled Gradient Projection 方法的神经网络演化学习算法，通过横跨重要梯度空间的基向量缩放梯度来避免老任务信息的灾难性遗忘，优化新学习表现，实验证明其在各种任务中性能均优于目前最先进的方法。

Feb, 2023