面向最坏情况下游适应的任务鲁棒预训练

Jun, 2023

面向最坏情况下游适应的任务鲁棒预训练

Task-Robust Pre-Training for Worst-Case Downstream Adaptation

Jianghui Wang, Cheng Yang, Xingyu Xie, Cong Fang, Zhouchen Lin

TL;DR本文提出了一种新的预训练模型方法，使其在从任务中保持鲁棒性，既在自然语言处理数据集上，又在计算机视觉数据集上都具有较好的表现。

Abstract

pre-training has achieved remarkable success when transferred to downstream tasks. In machine learning, we care about not only the good performance of a model but also its behavior under reasonable shifts of condition. The same philosophy holds when →

pre-training downstream-task robustness minimax loss natural language processing computer vision

发现论文，激发创造

对抗训练的稳健性从预训练到下游任务的迁移

在机器学习中，预训练模型对于下游任务的使用已经成为一种标准方法，虽然其实证明了效果提升，但是预训练模型的鲁棒性如何传递到下游任务中还未被充分理解。我们证明了预测器的鲁棒性可以通过其基础表示的鲁棒性来界定，与预训练协议无关。综上所述，我们的结果明确了可靠性表现在部署时所需要的表示函数的要求。

Aug, 2022

重新思考有监督的预训练，以实现更好的下游转移

该论文提出了一种名为 LOOK 的基于留一法 K 最近邻（Leave-One-Out K-Nearest-Neighbor）的监督预训练方法，它通过让每个图像只与其 k 个最近邻居共享其类标签，从而允许每个类展现出多模式分布，从而更好地转移至下游任务，并在多个下游任务上的实验研究表明，LOOK 优于其他监督和自监督预训练方法。

Oct, 2021

预训练中通过对抗训练获得更好的表示：理论视角

大规模深度学习中，预训练生成了下游任务的通用表示。现有文献经验性地观察到下游任务可以继承预训练模型的对抗鲁棒性，并提出了理论上的证明以揭示特征净化在预训练模型和下游任务之间的连接，在两层神经网络中展现出重要作用。通过对抗训练，每个隐藏节点趋向于选择一个或少量特征，而未经对抗训练的隐藏节点容易受到攻击。这一观察结果适用于监督预训练和对比学习，并且通过净化节点，清洁训练就足以实现下游任务的对抗鲁棒性。

Jan, 2024

探索随机平滑的可转移性

我们提出了一种用于预训练可认证的强健模型的方法，通过显著扩展预训练数据分布，在下游任务的微调中取得显著效益。我们通过对混合干净图像和各种噪声图像进行预训练，发现即使仅在干净图像上进行微调，也能取得惊人的认证准确率。此外，我们的方法仅需一个模型，即可处理各种噪声水平，大大降低了与以往使用多个模型的方法相比的计算成本。尽管仅使用一个模型，我们的方法仍可以得出与现有的多模型方法相当甚至更好的结果。

Dec, 2023

下游数据集出人意料地成为良好的预训练语料库

本文介绍了一个大规模的自我训练研究，其中使用相同的（下游）训练数据进行预训练和微调，并且观察到自我预训练可以与标准预训练相媲美，这表明在许多情况下，预训练性能增益主要受预训练目标本身的驱动，而不一定是庞大数据集的影响。

Sep, 2022

关于预训练数据多样性与微调鲁棒性的关联

预训练对深度学习中的模型性能具有广泛应用，我们的工作旨在理解该训练策略对下游模型的泛化特性的影响。我们发现，影响下游有效鲁棒性的主要因素是数据数量，而其他因素的影响有限。

Jul, 2023

通过微观偏差 - 方差分析理解最佳特征转移

在转移学习范式下，该研究探索了使用预训练特征转换来优化下游性能的简单线性模型，并发现了通过最小化沿着一组下游任务的平均渐近下游风险来确定最佳预先训练表示的相对重要性以及从偏差 - 方差角度对它们的贡献的特征和结构的学习。

Apr, 2024

大规模预训练的极限探索

通过调整数据规模、模型大小和训练时间，提高预训练的准确性可以有利于大多数下游任务的表现，但是当上游准确度提高时，下游任务的表现会饱和，并且与上游和下游任务的性能呈非线性关系，因此需要对下游性能建立一个模型以反映这种饱和现象。

Oct, 2021

理解和降低预训练中的标签噪声对下游任务的影响

通过大规模数据集的预训练和下游任务的微调已经成为深度学习中的标准实践。然而，预训练数据通常包含可能对模型的泛化产生不利影响的标签噪声。本文旨在理解预训练数据中噪声的特性，并减轻其对下游任务的影响。我们通过对合成噪声的 ImageNet-1K 和 YFCC15M 数据集进行有监督预训练模型的大量实验，证明了轻微噪声预训练可以在域内传输性能上有益，但总是会对域外性能造成恶化。我们通过实证验证了噪声对预训练的特征空间造成不同的影响。然后，我们提出了一种轻量级的黑盒调节方法（NMTune），来对齐特征空间，减轻噪声的恶性效应，并改善在域内和域外任务上的泛化能力，考虑到可能无法完全微调甚至访问预训练模型。我们对经过噪声数据预训练的热门视觉和语言模型进行了实证实验以评估我们的方法。我们的分析和结果显示出这个有趣而新颖的研究方向的重要性，我们称之为噪声模型学习。

Sep, 2023

询问您的分布偏移是否适合预训练

该研究旨在界定预训练在处理数据分布偏移时可以解决的失败模式，发现预训练可以缓解数据外推问题，但对数据集偏见无效；研究结果指出，预训练和干扰同时使用可以增加模型的鲁棒性，也发现在小规模、非多样但去除偏见的数据集上进行微调可以得到比在大规模和多样但有偏见的数据集上进行微调更加鲁棒的模型。

Feb, 2024