激活瓶颈：Sigmoid 神经网络无法预测一条直线

Jun, 2024

激活瓶颈：Sigmoid 神经网络无法预测一条直线

Activation Bottleneck: Sigmoidal Neural Networks Cannot Forecast a Straight Line

Maximilian Toller, Hussain Hussain, Bernhard C Geiger

TL;DR神经网络激活瓶颈波动图像无限序列网络体系结构简化

Abstract

A neural network has an activation bottleneck if one of its hidden layers has a bounded image. We show that networks with an →

neural network activation bottleneck bounded image unbounded sequences network architectures

发现论文，激发创造

适应性参数化突破激活函数瓶颈

本文提出一种新的神经网络 feed-forward layer 的灵活适应参数化方法，设计出一个新式适应性 LSTM 网络并在 Penn Treebank 和 WikiText-2 词模型任务中实现了卓越表现，使用的参数更少，收敛迭代次数减少一半以上。

May, 2018

带瓶颈的宽神经网络是深高斯过程

本文探讨了存在 “瓶颈” 的 BNNs 的宽限制，其中一些隐藏层被保持在有限宽度，结果是一种高斯过程的组合，我们称之为 “瓶颈神经网络高斯过程”（bottleneck NNGP），并分析了单个瓶颈 NNGP 的理论，发现瓶颈在极端深度通过产生输出之间的相关性，并防止网络的内核在极端深度失去区分能力。

Jan, 2020

弱监督语义分割中信息瓶颈的降低

本文通过对深度神经网络中信息瓶颈原理的分析，提出了一种处理像素级别的弱监督语义分割任务的新方法，该方法去除最后一层的激活函数并引入新的池化策略以弥补信息缺失，实验表明此方法在准确性和性能方面具有明显优势。

Oct, 2021

图神经网络的瓶颈及其实际应用

该研究指出图神经网络（GNN）在信息传播方面存在瓶颈问题，即信息在传输过程中容易被强行压缩而丢失长距离交互信息，而吸收入边的 GNNs 如 GCN 和 GIN 更容易发生这种情况，进一步反映当前模型优化中存在的问题。

Jun, 2020

通过信息瓶颈理解二元神经网络的学习动态

本文从信息瓶颈原理的角度分析了二值神经网络的训练动态，发现其不同于深度神经网络，同时发现二值神经网络会在表示压缩和损失拟合之间同时进行，从而发现其训练动态与激活函数无关

Jun, 2020

神经网络学习复杂性

本文研究神经网络的理论解释，针对单个隐藏层、平滑激活函数和良好输入分布条件下生成的数据可否进行有效学习，证明了对于广泛的激活函数和任何对数凹分布的输入，存在一类单隐藏层函数，其输出为和门，难以以任何精度有效地学习，这一下界对权重的微小扰动具有鲁棒性，且通过实验验证了训练误差的相变现象。

Jul, 2017

一种针对线性神经网络的新阐释

线性回归和神经网络广泛用于建模数据。我们提出的研究中，通过对 LNN 的优化分析和与线性回归在合成噪声数据集上的性能比较，证明了没有激活函数的神经网络在训练和测试性能方面都会降低。

Dec, 2023

在数据约束下，利用平方 Sigmoid TanH（SST）激活增强顺序模型性能

我们提出了一种名为 SST 激活函数的方法，用于增强顺序模型在数据约束下的学习能力，并通过对手势语言识别、回归和时间序列分类等任务的实验验证，表明 SST 模型相比基线激活的循环神经网络模型具有更好的测试准确性。

Feb, 2024

应用信息瓶颈原理学习神经网络分类的表示

通过研究使用信息瓶颈功能最小化来训练深度神经网络进行分类的理论论文，我们发现这种优化问题存在严重问题，方法包括使用随机神经网络、更加稳定的代价函数和设计直接实现所需属性的潜在表示的正则化项。

Feb, 2018

特征学习的哈密顿力学：漏洞结构在渗漏 ResNets 中的应用

我们研究了 Leaky ResNets，它在 ResNets（$\tilde {L}=0$）和全连接网络（$\tilde {L} \to \infty$）之间进行内插，具体取决于一个 “有效深度” 超参数 $\tilde {L}$。在无限深度极限下，我们研究了表示空间中的连续路径 $A_{p}$（类似于 NeuralODEs），这些路径从输入 $p=0$ 到输出 $p=1$，最小化网络的参数范数。我们给出了一个拉格朗日和哈密顿重述，突出了两个重要因素：一个动能，它偏爱小层导数 $\partial_{p} A_{p}$，一个势能，它偏爱低维表示，用 “恒等成本” 进行测量。这两种力之间的平衡提供了对 ResNets 中特征学习的直观理解。我们利用这种直观理解来解释之前工作中观察到的瓶颈结构的出现：对于大的 $\tilde {L}$，势能占主导地位，导致时间尺度的分离，表示空间从高维输入迅速跳跃到低维表示，然后在低维表示空间内缓慢移动，最后又跳回可能是高维的输出。受到这一现象的启发，我们使用自适应层步长进行训练，以适应时间尺度的分离。

May, 2024