通过p-范数门加速训练非常深的神经网络

Aug, 2016

通过p-范数门加速训练非常深的神经网络

Faster Training of Very Deep Networks Via p-Norm Gates

Trang Pham, Truyen Tran, Dinh Phung, Svetha Venkatesh

TL;DR本文提出一种$p$-norm控制流方案，通过控制数据流提高LSTM、Residual Nets等深度神经网络的学习速度。实验证明，在不增加额外操作的情况下，该方案显著加速了学习。

Abstract

A major contributing factor to the recent advances in deep neural networks is structural units that let sensory information and gradients to propagate easily. →

发现论文，激发创造

训练非常深的网络

本文介绍了一种名为“HighWay Network”的新型深度神经网络模型，采用门控单元对信息流进行监控，以实现高效的信息传递，从而克服了训练深度神经网络的问题。

Jul, 2015

门控卷积网络的语言建模

本研究提出一种基于卷积神经网络的有限环境文本处理方法，采用新型简化门控机制，具有并行优势和长期学习效应，相比循环神经网络可获得更高的性能和更短的处理时间。在大规模文本任务中取得了领先水平，是非循环方法首次能够与强循环模型竞争。

Dec, 2016

通道调节神经网络

本研究介绍了通道门控（channel gating）方法，该方法是动态、细粒度且硬件高效的裁剪方案，能够通过跳过对分类结果没有贡献的输入通道的计算，优化卷积神经网络。实验证明，该方法能够在几乎不损失准确度的情况下，实现浮点运算量减少2.7-8.0倍，内存访问减少2.0-4.4倍，并结合知识蒸馏可以进一步降低计算成本。我们还设计了一个加速器，能够以2.4倍的速度进行量化的ResNet-18模型的推理，并实现了2.8倍的理论FLOP减少。

May, 2018

循环神经网络的动态同态性和均场理论：门控在信号传播中扮演重要角色

本文通过mean field理论和随机矩阵理论的结合，解析了recurrent neural networks中gating机制的信号传播机理，并通过最小化的多层感知器网络(minimalRNN)与RNN的对比，研究了它们的训练性能。提出了初始方案的动态等角分解，并通过语言建模任务，证明了最小RNN可以与LSTM或GRU等复杂网络相媲美。

Jun, 2018

改进循环神经网络的门控机制

通过引入两个改进标准门控机制的修改，解决了门控机制在饱和状态下学习梯度的问题，在模拟记忆任务、序列图像分类、语言建模和强化学习等应用中有效提高了循环模型的性能。

Oct, 2019

深层门控网络：深度学习训练和泛化的框架理解

通过深门控网络作为框架，理论分析和实验验证了几种DGNs变体，阐述了深度神经网络的训练和泛化方面的问题，着重讨论了为什么增加深度能帮助训练到一定程度，而增加深度会伤害训练，以及证明了门控自适应在泛化中的关键作用。

Feb, 2020

精确门控：通过动态双精度激活提高神经网络效率

该研究提出一种高效的深度神经网络量化技术 - 精度门控（PG），可以动态地将大部分特征低精度计算，只将少量重要特征使用高精度计算来保证精度，从而大幅减少计算成本，同时保持准确率。该技术适用于各种DNN体系结构和模型，对于CNNs，PG与ImageNet数据集上的最优量化技术相比，准确率相同或更高，但计算耗费只有2.4倍。同时，PG还可以应用于RNNs，并且相比8位均匀量化，其在Penn Tree Bank数据集上的LSTM上获得了1.2％的困惑度提高和2.7倍的计算成本降低。

Feb, 2020

深度学习理论原理

本文研究了深度神经网络并使用表示群流的概念及信息论技巧，分析了其非线性模型的学习机制和有效模型复杂性及超参数等参数的归纳偏置。

Jun, 2021

GAT是否失衡？

基于图神经网络 (Graph Neural Networks) 的优化和学习动态尚未被广泛探索，本研究通过分析图注意力网络 (Graph Attention Network) 提出的保守定律解释了标准初始化中参数变动困难的现象，并提出了一种初始化方案来平衡图注意力网络，使得深层网络更易于训练并加速收敛速度。

Oct, 2023

硬件高效训练的门控线性注意力变换器

通过引入数据依赖的门控机制，我们开发了一种硬件高效的并行形式，使得门控线性注意力（GLA）Transformers在适度规模的语言建模中表现竞争力，并在训练速度上与基于CUDA优化的FlashAttention-2相媲美。

Dec, 2023