一个不可思议的先验来减少依赖快捷方式

Feb, 2021

一个不可思议的先验来减少依赖快捷方式

A Too-Good-to-be-True Prior to Reduce Shortcut Reliance

Nikolay Dagaev, Brett D. Roads, Xiaoliang Luo, Daniel N. Barry, Kaustubh R. Patil...

TL;DR研究了深度网络在 o.o.d. 样本下的推广问题，提出了使用浅层结构的低容量网络侦测卷积神经网络中的 superficial features，从而避免过度依赖 “捷径” 解决问题，并鼓励深层次学习。实验证明，这种两阶段的 LCN-HCN 方法有助于减少对捷径的依赖和促进 o.o.d. 推广。

Abstract

Despite their impressive performance in object recognition and other tasks under standard testing conditions, deep networks often fail to generalize to out-of-distribution (o.o.d.) samples. One cause for this shortcoming is that modern architectures tend to rely on "→

deep networks out-of-distribution samples low-capacity network high-capacity network shortcuts

发现论文，激发创造

改善深度学习中的简化偏差，促进超出分布的普适性和鲁棒性

神经网络对简单特征具有偏好，本文提出了一种鼓励模型使用多样性特征进行预测的框架，通过训练一个简单模型并对其进行条件互信息的正则化，解决了简单性偏差问题，并在各种问题设置和实际应用中显示了其有效性，提高了模型的性能以及鲁棒性和公平性。

Oct, 2023

规避简化偏差：训练多样化模型集发现具有更优越 OOC 普适性的解决方案

研究发现神经网络训练过程中存在简单性偏差，该偏差导致其缺乏鲁棒性，但该问题可通过不同方式训练来缓解，其中包括使用梯度对齐的惩罚项进行训练，以及在独立的模型选择阶段解决信息不足问题，此方法在视觉识别上获得了最佳结果。

May, 2021

简单高质量带 L2 归一化的 OOD 检测

本文针对 ResNet 结构进行 L2 正则化改进，在测试时移除 L2 正则化后，特征向量的 L2 范数成为了网络不确定性的良好指标。

Jun, 2023

学习可推广到分布外的模块化结构

本文提出一种针对机器学习系统中的 O.O.D. generalization 挑战的方法，通过训练鼓励模型仅保留在多个训练领域中被很好地重用的网络特征，结合两种互补的神经元级约束器和网络上的可微分二进制蒙版，提取模块化子网络以达到更好的 O.O.D. 性能。初步评估在两个基准数据集上证实了我们方法的优势。

Aug, 2022

深度神经网络的可预测外推倾向

神经网络预测在面对越来越多的分布外数据时，往往呈现出不可预测和过度自信的特点。然而，我们的研究发现，与其任意拟合，神经网络预测往往趋向于一个恒定值，并且这个值通常接近于最优恒定解（OCS），即在没有观察到输入时最小化训练数据平均损失的预测。我们在 8 个包含不同分布转移的数据集（包括 CIFAR10-C 和 ImageNet-R,S）、不同损失函数（交叉熵、均方误差和高斯负对数似然）以及不同架构（CNN 和转换器）上展示了这种现象。此外，我们提出了这种行为的解释，首先通过实证研究验证，然后在简化的深度均质网络和 ReLU 激活的环境中进行理论研究。最后，我们展示了如何在面对分布外输入时利用我们的发现在实践中实现风险敏感的决策。

Oct, 2023

自然语言理解中大型语言模型的快速学习：综述

本文介绍了大型语言模型的概念、挑战和解决方法，着重关注了数据集偏差和简化学习对其抗干扰性的影响，提出了识别和缓解这些影响的方法，并探讨了未来可能的研究方向。

Aug, 2022

在线持续学习的自适应快速修正偏差

DropTop 提出了一种新颖的框架，可以抑制在线持续学习中的快捷方式偏差，并能够适应不断变化的环境所引起的不同程度的快捷方式偏差。通过观察到的快捷方式偏差的高关注特性，高度激活的特征被视为去偏差的候选项。此外，通过解决在线环境中缺乏先前的知识和辅助数据的限制，两种新技术 —— 特征图融合和自适应强度调整 —— 使我们能够自动确定适当的级别和候选快捷方式特征的比例要丢弃。在五个基准数据集上进行的大量实验证明，与各种在线持续学习算法相结合，DropTop 的平均准确率可以提高高达 10.4％，遗忘率减少高达 63.2％。

Dec, 2023

浅层学习作为深度学习的替代方案

拟合深度学习基础理论的神经网络架构 —— 卷积层可以达到与深度卷积神经网络类似的性能，并有一个可识别其普遍行为的幂律现象。

Nov, 2022

预防在点估计判别神经网络中对远离数据的任意高自信度

通过在神经网络输出中添加额外类别的逻辑回归值，我们解决了过度自信并提高对边界测试数据的性能表现。

Nov, 2023

坚持不懈：减轻深度学习中的捷径之路

深度神经网络易受到捷径学习的影响，本文通过拓扑数据分析和持久同调的研究，找出一种能够解决深度学习中的捷径学习问题的统一方法。

Feb, 2024