一个不可思议的先验来减少依赖快捷方式
神经网络对简单特征具有偏好,本文提出了一种鼓励模型使用多样性特征进行预测的框架,通过训练一个简单模型并对其进行条件互信息的正则化,解决了简单性偏差问题,并在各种问题设置和实际应用中显示了其有效性,提高了模型的性能以及鲁棒性和公平性。
Oct, 2023
研究发现神经网络训练过程中存在简单性偏差,该偏差导致其缺乏鲁棒性,但该问题可通过不同方式训练来缓解,其中包括使用梯度对齐的惩罚项进行训练,以及在独立的模型选择阶段解决信息不足问题,此方法在视觉识别上获得了最佳结果。
May, 2021
本文提出一种针对机器学习系统中的 O.O.D. generalization 挑战的方法,通过训练鼓励模型仅保留在多个训练领域中被很好地重用的网络特征,结合两种互补的神经元级约束器和网络上的可微分二进制蒙版,提取模块化子网络以达到更好的 O.O.D. 性能。初步评估在两个基准数据集上证实了我们方法的优势。
Aug, 2022
神经网络预测在面对越来越多的分布外数据时,往往呈现出不可预测和过度自信的特点。然而,我们的研究发现,与其任意拟合,神经网络预测往往趋向于一个恒定值,并且这个值通常接近于最优恒定解(OCS),即在没有观察到输入时最小化训练数据平均损失的预测。我们在 8 个包含不同分布转移的数据集(包括 CIFAR10-C 和 ImageNet-R,S)、不同损失函数(交叉熵、均方误差和高斯负对数似然)以及不同架构(CNN 和转换器)上展示了这种现象。此外,我们提出了这种行为的解释,首先通过实证研究验证,然后在简化的深度均质网络和 ReLU 激活的环境中进行理论研究。最后,我们展示了如何在面对分布外输入时利用我们的发现在实践中实现风险敏感的决策。
Oct, 2023
本文介绍了大型语言模型的概念、挑战和解决方法,着重关注了数据集偏差和简化学习对其抗干扰性的影响,提出了识别和缓解这些影响的方法,并探讨了未来可能的研究方向。
Aug, 2022
DropTop 提出了一种新颖的框架,可以抑制在线持续学习中的快捷方式偏差,并能够适应不断变化的环境所引起的不同程度的快捷方式偏差。通过观察到的快捷方式偏差的高关注特性,高度激活的特征被视为去偏差的候选项。此外,通过解决在线环境中缺乏先前的知识和辅助数据的限制,两种新技术 —— 特征图融合和自适应强度调整 —— 使我们能够自动确定适当的级别和候选快捷方式特征的比例要丢弃。在五个基准数据集上进行的大量实验证明,与各种在线持续学习算法相结合,DropTop 的平均准确率可以提高高达 10.4%,遗忘率减少高达 63.2%。
Dec, 2023