深度神经网络测试表现预测的惊人线性关系

Jul, 2018

深度神经网络测试表现预测的惊人线性关系

A Surprising Linear Relationship Predicts Test Performance in Deep Networks

Qianli Liao, Brando Miranda, Andrzej Banburski, Jack Hidary, Tomaso Poggio

TL;DR通过在预训练阶段使用不同程度的 “腐败” 数据或使用不同高斯标准偏差的权重初始化网络，利用交叉熵损失可以使网络产生不同的泛化效果。通过去除交叉熵损失中不涉及期望分类性能的成分，可以建立训练误差和测试误差之间的线性关系，而分类错误与规范化交叉熵损失之间的经验关系似乎是近似单调的。

Abstract

Given two networks with the same training loss on a dataset, when would they have drastically different test losses and errors? Better understanding of this question of generalization may improve practical applications of deep networks. In this paper we show that with →

generalization cross-entropy loss overfitting sgd classification error

发现论文，激发创造

深度网络中的泛化（IIIb 理论）

该论文研究了深度神经网络中过拟合的问题，证明了使用特定的损失函数时神经网络的收敛性及性能，提出了一种实用的判断不同零最小化点泛化性能的方法。

Jun, 2018

线性连通性揭示泛化策略

使用 MNLI、QQP 和 CoLA 三个任务的文本分类模型为研究对象，发现了线性路径上增加的损失不断增加的现象，并探究了不同模型之间的泛化策略差异与损失表面几何形状之间的关系。

May, 2022

使用边界分布预测深度网络中的泛化差距

该论文研究发现，交叉熵等损失函数不能很好地预测深度神经网络的泛化能力，作者提出了一种基于边缘分布的测量方法，它可以被应用在任何架构的前馈深度网络上，并指出这个方法可能会提示新的训练损失函数的设计来实现更好的泛化。

Sep, 2018

神经网络分类任务中使用平方误差与交叉熵训练的结构评估

本文提供证据表明，对于 NLP 和 ASR 任务，使用方块损失函数进行神经网络训练，可以获得比交叉熵更好的效果，并且可以提高计算资源的利用率。我们认为，使用方块损失函数需要成为现代深度学习最佳实践的一部分，与交叉熵在平等基础上竞争。

Jun, 2020

测试时对手存在下交叉熵损失的下限

本文探讨了在存在测试时对抗情况下的分类器损失的最优下限和对应最优分类输出的确定，并使用自适应算法以高效地计算此下限，进而将其作为诊断工具来确定当前鲁棒性训练方法的有效性，并探讨使用最优分类输出作为软标签以经验地改善鲁棒性训练。

Apr, 2021

使用线性教师研究神经网络中的学习

本文证明了，通过 SGD 训练具有 Leaky ReLU 激活函数的两层神经网络，可以在全局最小化交叉熵的同时学习线性可分数据，且学习的网络具有较为简单的近似线性决策边界。同时，本文提出了一种可以发现权重聚类的优化条件，并通过实验证明了理论分析的正确性。

Jan, 2021

深度神经网络的学习动态

研究深度神经网络的学习动态，主要关注于二元分类问题。我们证明了网络学习的各种性质，并且在非线性架构下，分类误差也呈现出 sigmoid 形状，证实了经验观察。我们指出了梯度饱和现象和特征频率对模型收敛速度的影响，并探讨了交叉熵和 hinge 损失对生成对抗网络训练的差异。最后，我们提出了梯度饥饿现象并进行了研究。

Sep, 2018

分类边界的分布：所有数据是否平等？

通过对深度神经网络上梯度下降算法的实证研究发现，通过训练集中带宽分布曲线的曲线下面积来量化模型的泛化性能是更精确的方法，并且在加入批量规范化和权重衰减的情况下得到的训练点会收敛到同一个渐近边界，但其高容量特征并不一致。

Jul, 2021

多任务深度神经分类器中的泛化问题：基于统计物理学的方法

本论文通过应用无序系统的统计物理学技术，对解决使用 softmax 输出和交叉熵损失的分类任务的深度神经网络的推广进行非线性动力学的分析，以理论上支持多任务学习表现由任务的噪声性以及输入特征对其的对齐程度来决定的直觉。

Oct, 2019

任意深度的宽神经网络在梯度下降下演化为线性模型

本文研究神经网络的学习和泛化性能，发现对于宽神经网络，学习动态变得简单，并且在无限宽度的极限下，它们由网络初始参数的一阶泰勒展开得到的线性模型控制。同时，通过在广义上拟合高斯过程的理论，揭示了神经网络可能表现出高斯过程的特性。

Feb, 2019