改善深度学习中的简化偏差,促进超出分布的普适性和鲁棒性
研究发现神经网络训练过程中存在简单性偏差,该偏差导致其缺乏鲁棒性,但该问题可通过不同方式训练来缓解,其中包括使用梯度对齐的惩罚项进行训练,以及在独立的模型选择阶段解决信息不足问题,此方法在视觉识别上获得了最佳结果。
May, 2021
本文旨在通过设计包含不同时简单性的多个预测特征的数据集,捕捉实际训练数据中的非鲁棒性,从理论和实证研究中发现简洁性偏见在训练神经网络中的作用及其对泛化和鲁棒性的影响,提出新算法以避免简洁性偏见的缺陷。
Jun, 2020
本实验提出特征筛选的方法,即在神经网络的低层中自动鉴定和抑制易于计算的虚假特征,从而使高级别能够提取更丰富、更有意义的特征,这可以提高深度神经网络的识别能力和准确性,且无需依赖任何预设的知识。
Jan, 2023
本文提出一种针对机器学习系统中的 O.O.D. generalization 挑战的方法,通过训练鼓励模型仅保留在多个训练领域中被很好地重用的网络特征,结合两种互补的神经元级约束器和网络上的可微分二进制蒙版,提取模块化子网络以达到更好的 O.O.D. 性能。初步评估在两个基准数据集上证实了我们方法的优势。
Aug, 2022
本文提出深度神经网络可归纳地更倾向于寻找低秩嵌入的解,这种偏见在网络深度和宽度,初始化和训练过程中都存在,并且能够提高 CIFAR 和 ImageNet 数据集的泛化性能。
Mar, 2021
基于大规模研究,通过对 48 个由不同训练方法得到的 ImageNet 模型进行测试,我们发现传统认为的偏见,包括形状偏见、频谱偏见和临界频带,无法准确预测模型整体的泛化能力。
Apr, 2024
多样化方法对无标签数据的分布敏感,单纯多样化无法实现 OOD 泛化,学习算法的选择至关重要,将导致精度绝对下降 20%;选择最佳学习算法依赖于无标签数据,同时无标签数据也依赖于学习算法的选择。增加多样性假设数量不能解决这些问题。以上发现为了深入理解多样化方法的 OOD 泛化提供了关键设计因素,指导实践和研究。
Dec, 2023
研究使用机器学习技术的安全关键系统需要可靠的不确定性评估。本研究发现,深度神经网络在处理分布外数据时可能会产生过度自信的预测。本研究提出了一种具有保护分布外数据和高准确度的分类器,并提供所有实验代码。
Jun, 2021
神经网络预测在面对越来越多的分布外数据时,往往呈现出不可预测和过度自信的特点。然而,我们的研究发现,与其任意拟合,神经网络预测往往趋向于一个恒定值,并且这个值通常接近于最优恒定解(OCS),即在没有观察到输入时最小化训练数据平均损失的预测。我们在 8 个包含不同分布转移的数据集(包括 CIFAR10-C 和 ImageNet-R,S)、不同损失函数(交叉熵、均方误差和高斯负对数似然)以及不同架构(CNN 和转换器)上展示了这种现象。此外,我们提出了这种行为的解释,首先通过实证研究验证,然后在简化的深度均质网络和 ReLU 激活的环境中进行理论研究。最后,我们展示了如何在面对分布外输入时利用我们的发现在实践中实现风险敏感的决策。
Oct, 2023