深度学习与系统性泛化之间的内在冲突

Aug, 2022

深度学习与系统性泛化之间的内在冲突

On a Built-in Conflict between Deep Learning and Systematic Generalization

Yuanpeng Li

TL;DR本研究认为，内部功能共享是弱化深度学习分类任务中系统概括或系统性泛化能力的原因之一。在等效预测下，模型将输入空间划分为由边界分隔的多个部分。功能共享倾向于重复使用边界，导致新输出的部分较少，这与系统性泛化相冲突。我们在标准的深度学习模型中展现了这种现象，例如全连接、卷积、残差网络，LSTMs 和（视觉）变换器。我们希望这项研究为系统性泛化提供新的见解，并为新的研究方向奠定基础。

Abstract

In this paper, we hypothesize that internal function sharing is one of the reasons to weaken o.o.d. or systematic generalization in

internal function sharing o.o.d systematic generalization deep learning classification

发现论文，激发创造

重新思考泛化对于了解深度学习至关重要

该研究通过系统实验和理论构建发现，传统方法很难解释为什么大型神经网络的泛化性能良好，即使加入正则化仍然不会改变随机标记训练数据的状态，因为只要参数数量超过数据点数量，简单的两层神经网络就能实现完美的有限样本表达能力。

Nov, 2016

深度网络中的泛化（IIIb 理论）

该论文研究了深度神经网络中过拟合的问题，证明了使用特定的损失函数时神经网络的收敛性及性能，提出了一种实用的判断不同零最小化点泛化性能的方法。

Jun, 2018

深度稳健学习 - 针对外部分布泛化

本文主要研究基于深度神经网络的方法在训练数据与测试数据分布不一致时的性能问题，并通过学习训练样本的权重以消除特征之间的依赖关系，从而提高深度模型的性能。通过在多个分布泛化基准测试上的实验，与同类研究相比，我们的方法取得了很好的效果。

Apr, 2021

深度学习具有泛化能力是因为参数 - 函数映射倾向于简单函数

本文提供了深度神经网络的隐式正则化和广义性能的新解释，即表明深度神经网络的参数 - 函数映射应该具有指数偏向简单函数的现象，并且该内在的简单性依赖有助于解释为什么深度网络在现实世界的问题上具有良好的泛化性能。此外，本文提出了一种基于 PAC-Bayes 理论的方法，可以保证目标函数产生高似然训练集时的良好期望泛化，而且该方法的普适性更好。

May, 2018

深度神经网络的可预测外推倾向

神经网络预测在面对越来越多的分布外数据时，往往呈现出不可预测和过度自信的特点。然而，我们的研究发现，与其任意拟合，神经网络预测往往趋向于一个恒定值，并且这个值通常接近于最优恒定解（OCS），即在没有观察到输入时最小化训练数据平均损失的预测。我们在 8 个包含不同分布转移的数据集（包括 CIFAR10-C 和 ImageNet-R,S）、不同损失函数（交叉熵、均方误差和高斯负对数似然）以及不同架构（CNN 和转换器）上展示了这种现象。此外，我们提出了这种行为的解释，首先通过实证研究验证，然后在简化的深度均质网络和 ReLU 激活的环境中进行理论研究。最后，我们展示了如何在面对分布外输入时利用我们的发现在实践中实现风险敏感的决策。

Oct, 2023

学习可推广到分布外的模块化结构

本文提出一种针对机器学习系统中的 O.O.D. generalization 挑战的方法，通过训练鼓励模型仅保留在多个训练领域中被很好地重用的网络特征，结合两种互补的神经元级约束器和网络上的可微分二进制蒙版，提取模块化子网络以达到更好的 O.O.D. 性能。初步评估在两个基准数据集上证实了我们方法的优势。

Aug, 2022

规避简化偏差：训练多样化模型集发现具有更优越 OOC 普适性的解决方案

研究发现神经网络训练过程中存在简单性偏差，该偏差导致其缺乏鲁棒性，但该问题可通过不同方式训练来缓解，其中包括使用梯度对齐的惩罚项进行训练，以及在独立的模型选择阶段解决信息不足问题，此方法在视觉识别上获得了最佳结果。

May, 2021

机器学习中的越界泛化

研究探讨了机器学习中的问题，特别是当模型在不同于训练数据的数据上进行测试时，模型很容易出现失败的现象，主要依靠发现数据的因果结构、找到可靠的特征并进行推广算法等方面展开探讨。

Mar, 2021

ImageNet 模型中的偏见能解释泛化吗？

基于大规模研究，通过对 48 个由不同训练方法得到的 ImageNet 模型进行测试，我们发现传统认为的偏见，包括形状偏见、频谱偏见和临界频带，无法准确预测模型整体的泛化能力。

Apr, 2024

多任务深度神经分类器中的泛化问题：基于统计物理学的方法

本论文通过应用无序系统的统计物理学技术，对解决使用 softmax 输出和交叉熵损失的分类任务的深度神经网络的推广进行非线性动力学的分析，以理论上支持多任务学习表现由任务的噪声性以及输入特征对其的对齐程度来决定的直觉。

Oct, 2019