基于行列式点过程的注意力在网格编码中支持分布外泛化
对于图外分布问题(OOD),本研究从体系结构角度进行了全面调查,探讨了现代图神经网络的常见构建模块。通过广泛的实验,揭示了图的自注意机制和解耦体系结构对图 ODD 泛化的正面贡献,而线性分类层则会损害图 ODD 泛化能力。此外,我们基于这些发现开发了一种新的图神经网络模型 DGAT,它充分利用了图的自注意机制和解耦体系结构的稳健特性,并通过广泛的实验证明了我们模型在图 ODD 下的有效性,对各种训练策略都展现出了明显和一致的改进。
Feb, 2024
本文提出一种针对机器学习系统中的 O.O.D. generalization 挑战的方法,通过训练鼓励模型仅保留在多个训练领域中被很好地重用的网络特征,结合两种互补的神经元级约束器和网络上的可微分二进制蒙版,提取模块化子网络以达到更好的 O.O.D. 性能。初步评估在两个基准数据集上证实了我们方法的优势。
Aug, 2022
本文提出了一种神经元激活覆盖度(NAC)概念,并通过研究神经元行为以区分 InD 和 OOD 数据,打破了 ResNet-50 FPR95 记录并提出了 NAC 标准以评估模型健壮性。
Jun, 2023
使用 DNN 编码模型预测视觉皮层神经元反应时,我们对其泛化能力进行了表征。通过收集来自猕猴颞下皮层的大规模神经群体反应数据集 MacaqueITBench,我们研究了分布转移对预测神经活动模型的影响。结果显示,分布转移对于预测神经元响应的模型性能有很大影响,并且预训练对象识别模型提取的图像表示之间的余弦距离是神经预测性的强预测因子。
Jun, 2024
本文通过对深度神经网络(DNNs)在不同方向识别对象的表现进行了探究,并系统地检查了 DNNs 的通用性能力的限制,研究了数据多样性对其的影响,并得出了一个有趣的结论:DNNs 只能泛化到像 2D 一样的对象实例,即平面内旋转的内部分布方向。
Sep, 2021
本文提出了一种新的 OOC 检测方法,探讨了鉴别模型在特定区域中对数据更敏感,借此提出了基于扩散模型的检测方法和指标分数,结合鉴别模型和生成模型进行检测,实验结果表明该方法在 CIFAR10 和 CIFAR100 数据集上有竞争力。
Nov, 2022
通过对分布偏移数据的分类和对其相关算法的大量实验比较,对已有数据集和算法进行了分类整合,为未来的迁移学习和数据偏移研究提供了参考。
Jun, 2021
基于生成 Transformer 模型在解决各种问题方面取得了显著的熟练度,但其泛化能力尚未被完全理解并且不始终令人满意。研究人员将 n 位数加法或乘法等基本数学任务作为调查其泛化行为的重要角度。然而,有趣的是,当在 n 位数操作(例如加法)上进行训练时,模型在未见过的 n 位数输入上可以成功泛化(分布内泛化),但在更长的、未见过的情况下却失败且神秘(分布外泛化)。研究试图通过修改位置嵌入、微调和引导更广泛或更有指导性的数据等解决方案来弥合这一差距。然而,如果不解决基本机制,对于这些解决方案的鲁棒性几乎没有任何保证。我们引起人们对这种无法解释的性能下降的注意,并询问它是否纯粹是由于随机错误。在这里,我们转向机制研究的线路,这在模型可解释性方面取得了显著的成功。我们发现强 ID 泛化源于结构化表示,而在令人不满意的 OOD 性能方面,模型仍然展现出明确的学习代数结构。具体而言,这些模型将未见过的 OOD 输入映射到具有 ID 域等价关系的输出。这凸显了模型携带有用信息以改善泛化的潜力。
Aug, 2023
本文提出了使用非欧氏线性外推的方法来实现图形 OOD 广义化,并在不破坏基本因果机制的情况下为特定转移定制 OOD 样本,理论分析和实证结果表明了我们的方法在解决目标转移问题上的有效性。
Jun, 2023
机器学习模型在处理来自未来天文调查的离域样本时依然面临挑战,解释性方法通过使用相似性度量来检查预训练卷积神经网络在中心核对齐方面的性能与表示相似性之间的关系,发现当模型对分布变化具有稳健性时,在离域数据上,图像在网络层之间的表示会有较大变化;然而,当模型无法泛化时,在离域数据上,这些表示在网络层之间的变化较小。讨论了这种相似性表示在模型设计、训练策略以及通过在训练过程中加入中心核对齐作为归纳偏差来缓解离域问题方面的潜在应用。
Nov, 2023