神经 GPU 的扩展和限制
本研究提出一种神经网络结构 —— 神经 GPU 来解决 Neural Turing Machine 中存在的训练难题,实现了对于尺寸不确定的输入进行算法训练,并能成功地推广到更长的算法实例中。通过参数共享放松、少量的 dropout 和渐变噪声的技术应用,神经 GPU 在训练和泛化方面收到了显著的正面效应。
Nov, 2015
该研究提出了一种神经算术逻辑单元 (NALU) 的架构,它将数字数量表示为线性激活,再通过学习和控制基本算术运算符的门控制来进行操作,实验结果表明,NALU 增强的神经网络在数字值范围内外的推广性能更好。
Aug, 2018
论文介绍了两个新的神经网络组件:神经加法单元(NAU)和神经乘法单元(NMU),这两个组件都可以学习实现精确的算术运算,并且相比以前的神经网络单元, 它们收敛更一致,参数更少,学习速度更快,并且在处理稀疏数据时有意义性。
Jan, 2020
通过在每个数字上添加编码其相对于数字起始位置的嵌入,解决了 transformers 在算术任务中表现较差的问题,并展示了该修复方法进一步提高性能的架构修改方法。通过解决位置问题,研究了 transformers 的逻辑推理能力,并发现通过单个 GPU 训练一天,仅使用 20 位数字,在 100 位加法问题上实现了高达 99% 的准确率的最新结果,并证明这种提高数字能力的方法也适用于其他多步骤推理任务,如排序和乘法。
May, 2024
本文介绍了一种对二值化神经网络进行训练的方法,并在 Torch7 和 Theano 两个框架下,对 MNIST、CIFAR-10 和 SVHN 数据集进行了实验,取得了近乎领先水平的结果。通过在前向传递过程中使用二值化的权重和激活值,可以大幅减少内存消耗,用位运算取代大多数算术运算,并且使用二进制矩阵乘法 GPU 内核可以比未优化的 GPU 内核快 7 倍,而不会损失分类准确度。
Feb, 2016
本研究提出了一种新颖的神经程序模型(Neural Programmer),该模型扩展了具有少量基本算术和逻辑运算的不可区分神经网络,此模型可以在多个步骤中调用这些扩展操作,因此产生的组成程序比内置操作更复杂。该模型采用相对较弱的监督信号进行训练,不需要昂贵的编写正确程序的注释,经过训练在很复杂的综合表理解数据集中取得了几乎完美的准确度。
Nov, 2015
通过在网络中暴露操作之间的并行性,我们实现了对于各种网络规模的 10 倍加速优化,这种优化的实现被整合到了 NVIDIA 的 cuDNN 的第五个版本中。
Apr, 2016
通过并行算法提高 GPU 评估顺序模型的速度,解决传统顺序模型训练速度缓慢的问题,加快训练速度同时保持输出准确性,使得非线性顺序模型在长序列问题中具备潜力。
Sep, 2023