浅 - 深网络：理解和缓解网络过度思考

ICMLOct, 2018

浅 - 深网络：理解和缓解网络过度思考

Shallow-Deep Networks: Understanding and Mitigating Network Overthinking

Yigitcan Kaya, Sanghyun Hong, Tudor Dumitras

TL;DR本研究发现深度神经网络中的过度思考现象及其带来的计算浪费和错误分类问题，提出了增加内部分类器的 Shallow-Deep Network 对于内部分类的可见性，同时通过引入基于置信度的早期决策来减少计算浪费并避免了 50％的自然输入误分类问题，并提出新的混淆度量方法来量化导致误分类的内部分歧。

Abstract

We characterize a prevalent weakness of deep neural networks (DNNs)---overthinking---which occurs when a DNN can reach correct predictions before its final layer. →

deep neural networks overthinking shallow-deep network early exits misclassifications

发现论文，激发创造

深度监督网络

本文提出了一种名为深度监督网络（DSN）的方法，该方法同时最小化分类错误并使隐藏层的学习过程变得直接和透明；通过研究深层网络中的新表述，从卷积神经网络结构的三个方面来提高分类性能：中间层到整体分类的透明度、学习特征的区分能力及健壮性（特别是在早期层），以及存在爆炸和消失梯度的有效训练。我们在个别隐藏层中引入 “伴随目标”，并结合随机梯度方法来分析算法。实验结果表明，相对于现有方法，我们的方法具有显著的性能提升（例如在 MNIST，CIFAR-10，CIFAR-100 和 SVHN 等基准数据集上的表现均优于现有技术的最新水平）。

Sep, 2014

深度网络是否真的需要很深？

该研究表明，浅层前馈神经网络可以学习先前由深层网络学习的复杂函数，并且可以达到仅用深度模型可以实现的准确度，在 TIMIT 语音识别任务中，没有经过复杂设计的浅层神经网络能够表现类似于深度卷积网络，并且成功地训练浅层神经网络模仿更深层次模型的方法表明，可能存在比当前更好的训练浅层前馈网络的算法。

Dec, 2013

深度神经网络是否具有内在的奥卡姆剃刀原理？

研究表明，深度神经网络成功的关键在于结构化数据，以及拥有一种像奥卡姆剃刀一般的归纳偏差，使其能够对抗复杂度呈指数级增长的函数，通过引入贝叶斯图像和随机梯度下降等方法，我们试图将网络架构、训练算法和数据结构三个组件相互分离。

Apr, 2023

随机深度深度网络

该研究提出了一种名为随机深度的训练方法，通过随机地去掉一部分神经网络层，降低训练时间，提高测试准确率，特别是对于残差网络这样深层数学习模型的训练和测试效果都得到了大幅提升。

Mar, 2016

深度网络中的理论问题：逼近、优化和泛化

简述：对深度学习的理论研究逐渐深入，从表示能力到优化、从梯度下降的泛化性质到固有隐藏复杂性的到达方式，已经有了一些解释；通过在分类任务中使用经典的均匀收敛结果，我们证明了在每个层的权重矩阵上施加单位范数约束下最小化替代指数型损失函数的有效性，从而解决了与深度网络泛化性能相关的一些谜团。

Aug, 2019

深度网络中的泛化（IIIb 理论）

该论文研究了深度神经网络中过拟合的问题，证明了使用特定的损失函数时神经网络的收敛性及性能，提出了一种实用的判断不同零最小化点泛化性能的方法。

Jun, 2018

轻量级概率深度网络

本文介绍了两种轻量级的方法，使具有概率性的深层网络的监督学习变得实用，首先，我们建议使用分类和回归的概率性输出层，其对现有网络只需进行最小的更改，其次，我们使用假设密度过滤（assumed density filtering）并展示如何将激活不确定性以实用的方式传播到整个网络中，这两种概率性网络保留了确定性网络的预测能力，但产生与其预测引起的经验误差相关的不确定性。

May, 2018

BadNets: 识别机器学习模型供应链中的漏洞

本文探讨了基于深度学习的技术在云端上进行外包培训时所带来的安全风险，提出了恶意训练网络的概念（即 BadNet），并阐述了在实际情景中 BadNet 的行为，讨论了神经网络中后门的研究难点和验证技术的发展。

Aug, 2017

重新思考泛化对于了解深度学习至关重要

该研究通过系统实验和理论构建发现，传统方法很难解释为什么大型神经网络的泛化性能良好，即使加入正则化仍然不会改变随机标记训练数据的状态，因为只要参数数量超过数据点数量，简单的两层神经网络就能实现完美的有限样本表达能力。

Nov, 2016

当浅层模型强时，是否更深层模型更好？

该论文研究了深层神经网络在梯度下降最优化过程中利用深度的表达能力，证明了具有分形结构的分布可以被深层网络有效地表达，而浅层网络无法表达。论文还探讨了粗细篮子之间的平衡如何影响深度神经网络的优化过程，并推断了学习深度神经网络是否成功取决于分布是否可以被浅层网络很好地逼近的结论。

Mar, 2019