改善深度学习中的简化偏差，促进超出分布的普适性和鲁棒性

Oct, 2023

改善深度学习中的简化偏差，促进超出分布的普适性和鲁棒性

Mitigating Simplicity Bias in Deep Learning for Improved OOD Generalization and Robustness

Bhavya Vasudeva, Kameron Shahabi, Vatsal Sharan

TL;DR神经网络对简单特征具有偏好，本文提出了一种鼓励模型使用多样性特征进行预测的框架，通过训练一个简单模型并对其进行条件互信息的正则化，解决了简单性偏差问题，并在各种问题设置和实际应用中显示了其有效性，提高了模型的性能以及鲁棒性和公平性。

Abstract

neural networks (NNs) are known to exhibit simplicity bias where they tend to prefer learning 'simple' features over more 'complex' ones, even when the latter may be more informative. →

neural networks simplicity bias out-of-distribution generalization regularization fairness

发现论文，激发创造

规避简化偏差：训练多样化模型集发现具有更优越 OOC 普适性的解决方案

研究发现神经网络训练过程中存在简单性偏差，该偏差导致其缺乏鲁棒性，但该问题可通过不同方式训练来缓解，其中包括使用梯度对齐的惩罚项进行训练，以及在独立的模型选择阶段解决信息不足问题，此方法在视觉识别上获得了最佳结果。

May, 2021

神经网络中简化偏差的陷阱

本文旨在通过设计包含不同时简单性的多个预测特征的数据集，捕捉实际训练数据中的非鲁棒性，从理论和实证研究中发现简洁性偏见在训练神经网络中的作用及其对泛化和鲁棒性的影响，提出新算法以避免简洁性偏见的缺陷。

Jun, 2020

一种用于去偏置神经网络的对抗特征学习策略

本实验提出特征筛选的方法，即在神经网络的低层中自动鉴定和抑制易于计算的虚假特征，从而使高级别能够提取更丰富、更有意义的特征，这可以提高深度神经网络的识别能力和准确性，且无需依赖任何预设的知识。

Jan, 2023

学习可推广到分布外的模块化结构

本文提出一种针对机器学习系统中的 O.O.D. generalization 挑战的方法，通过训练鼓励模型仅保留在多个训练领域中被很好地重用的网络特征，结合两种互补的神经元级约束器和网络上的可微分二进制蒙版，提取模块化子网络以达到更好的 O.O.D. 性能。初步评估在两个基准数据集上证实了我们方法的优势。

Aug, 2022

深度神经网络中的低秩简约偏差

本文提出深度神经网络可归纳地更倾向于寻找低秩嵌入的解，这种偏见在网络深度和宽度，初始化和训练过程中都存在，并且能够提高 CIFAR 和 ImageNet 数据集的泛化性能。

Mar, 2021

过参数化对于超出分布之外的普适性的益处

研究了过参数化模型在 Out-of-Distribution 问题下的性能，发现模型容量的增加和模型集成有助于提高 OOD 推广能力。

Mar, 2024

ImageNet 模型中的偏见能解释泛化吗？

基于大规模研究，通过对 48 个由不同训练方法得到的 ImageNet 模型进行测试，我们发现传统认为的偏见，包括形状偏见、频谱偏见和临界频带，无法准确预测模型整体的泛化能力。

Apr, 2024

通过多元化揭示 OOD 推广的关键组成部分

多样化方法对无标签数据的分布敏感，单纯多样化无法实现 OOD 泛化，学习算法的选择至关重要，将导致精度绝对下降 20％；选择最佳学习算法依赖于无标签数据，同时无标签数据也依赖于学习算法的选择。增加多样性假设数量不能解决这些问题。以上发现为了深入理解多样化方法的 OOD 泛化提供了关键设计因素，指导实践和研究。

Dec, 2023

可证明鲁棒性的无需付出昂贵代价的异常检测

研究使用机器学习技术的安全关键系统需要可靠的不确定性评估。本研究发现，深度神经网络在处理分布外数据时可能会产生过度自信的预测。本研究提出了一种具有保护分布外数据和高准确度的分类器，并提供所有实验代码。

Jun, 2021

深度神经网络的可预测外推倾向

神经网络预测在面对越来越多的分布外数据时，往往呈现出不可预测和过度自信的特点。然而，我们的研究发现，与其任意拟合，神经网络预测往往趋向于一个恒定值，并且这个值通常接近于最优恒定解（OCS），即在没有观察到输入时最小化训练数据平均损失的预测。我们在 8 个包含不同分布转移的数据集（包括 CIFAR10-C 和 ImageNet-R,S）、不同损失函数（交叉熵、均方误差和高斯负对数似然）以及不同架构（CNN 和转换器）上展示了这种现象。此外，我们提出了这种行为的解释，首先通过实证研究验证，然后在简化的深度均质网络和 ReLU 激活的环境中进行理论研究。最后，我们展示了如何在面对分布外输入时利用我们的发现在实践中实现风险敏感的决策。

Oct, 2023