本文旨在通过设计包含不同时简单性的多个预测特征的数据集,捕捉实际训练数据中的非鲁棒性,从理论和实证研究中发现简洁性偏见在训练神经网络中的作用及其对泛化和鲁棒性的影响,提出新算法以避免简洁性偏见的缺陷。
Jun, 2020
本实验提出特征筛选的方法,即在神经网络的低层中自动鉴定和抑制易于计算的虚假特征,从而使高级别能够提取更丰富、更有意义的特征,这可以提高深度神经网络的识别能力和准确性,且无需依赖任何预设的知识。
Jan, 2023
研究表明,梯度下降训练的神经网络具有归纳偏差,倾向于学习简单的解决方案,导致学习到与标签高度相关的简单虚假特征而非复杂的核心特征,此文介绍一种名为 SPARE 的方法,能够早期发现含有虚假相关性的大型分组,并利用重要性抽样来平衡组大小,从而减轻虚假关联的影响,相对于现有方法,SPARE 方法的最差组准确度提高了最高达 5.6%,速度提高了多达 12 倍。
May, 2023
神经网络在存在偏执特征时,能够学习到核心特征,即使简单虚假特征扭曲了预测结果;研究通过不平衡标签耦合的方法,调查了简单和复杂特征在预测中的不同水平,以及复杂特征在预测中的贡献。
Nov, 2023
本文提出深度神经网络可归纳地更倾向于寻找低秩嵌入的解,这种偏见在网络深度和宽度,初始化和训练过程中都存在,并且能够提高 CIFAR 和 ImageNet 数据集的泛化性能。
Mar, 2021
神经网络对简单特征具有偏好,本文提出了一种鼓励模型使用多样性特征进行预测的框架,通过训练一个简单模型并对其进行条件互信息的正则化,解决了简单性偏差问题,并在各种问题设置和实际应用中显示了其有效性,提高了模型的性能以及鲁棒性和公平性。
Oct, 2023
通过对变压器在随机输入变化的敏感性进行研究,揭示了其简约偏差以及频谱偏差,并发现低敏感性偏差与提高鲁棒性相关,并可作为进一步提高变压器鲁棒性的有效干预手段。
Mar, 2024
该研究指出神经网络首先学习数据分布的低阶矩,然后再学习高阶相关性。通过实验证据,证明了神经网络在训练早期会自动学习以最大熵分布为基础的低阶统计信息,但训练后期会失去这种能力。该研究还将分布简易偏差扩展到离散领域,并通过证明 Token 的 n-gram 频率与嵌入向量矩的等价性以及在 LLMs 中找到的实证证据,证明了该偏差。最后,研究利用最优运输方法对某一类的低阶统计信息进行手术式编辑,使其与目标类的统计信息相匹配,并展示了早期训练的网络将编辑后的样本视为从目标类中抽取的样本。
Feb, 2024
本文探讨了神经塌缩(Neural Collapse)现象在不平衡属性的偏倚数据集中的影响,提出了一种避免捷径学习的框架,通过设计神经塌缩结构的快捷方式引导模型,以捕捉内在的相关性,从而解决了偏倚分类的根本原因,实验证明该方法在训练过程中具有更好的收敛性能并在综合和真实世界的偏倚数据集上实现了最新的泛化性能。
May, 2024
研究发现神经网络训练过程中存在简单性偏差,该偏差导致其缺乏鲁棒性,但该问题可通过不同方式训练来缓解,其中包括使用梯度对齐的惩罚项进行训练,以及在独立的模型选择阶段解决信息不足问题,此方法在视觉识别上获得了最佳结果。
May, 2021