神经 GPU 的扩展和限制

Nov, 2016

Extensions and Limitations of the Neural GPU

Eric Price, Wojciech Zaremba, Ilya Sutskever

TL;DR本文介绍了两种方式来改进神经 GPU 模型，包括设计课程和增加模型大小，在 10 进制表示下解决所有算术操作并学习执行多操作数算术表达式，同时调查其故障模式与对手示例相似。

Abstract

The neural gpu is a recent model that can learn algorithms such as multi-digit binary addition and binary multiplication in a way that generalizes to inputs of arbitrary length. We show that there are two simple ways of improving the performance of the →

neural gpu algorithm learning curriculum model size arithmetic operations

发现论文，激发创造

改进基于神经网络 GPU 的算法学习架构

介绍一种提高训练效率和泛化能力的神经 GPU 算法，该算法利用新的技术和对活动存储结构的对角门技术来学习十进制乘法。

Feb, 2017

神经 GPU 学习算法

本研究提出一种神经网络结构 —— 神经 GPU 来解决 Neural Turing Machine 中存在的训练难题，实现了对于尺寸不确定的输入进行算法训练，并能成功地推广到更长的算法实例中。通过参数共享放松、少量的 dropout 和渐变噪声的技术应用，神经 GPU 在训练和泛化方面收到了显著的正面效应。

Nov, 2015

神经算术逻辑单元

该研究提出了一种神经算术逻辑单元 (NALU) 的架构，它将数字数量表示为线性激活，再通过学习和控制基本算术运算符的门控制来进行操作，实验结果表明，NALU 增强的神经网络在数字值范围内外的推广性能更好。

Aug, 2018

神经算术单元

论文介绍了两个新的神经网络组件：神经加法单元（NAU）和神经乘法单元（NMU），这两个组件都可以学习实现精确的算术运算，并且相比以前的神经网络单元，它们收敛更一致，参数更少，学习速度更快，并且在处理稀疏数据时有意义性。

Jan, 2020

变压器能够通过正确的嵌入进行算术运算

通过在每个数字上添加编码其相对于数字起始位置的嵌入，解决了 transformers 在算术任务中表现较差的问题，并展示了该修复方法进一步提高性能的架构修改方法。通过解决位置问题，研究了 transformers 的逻辑推理能力，并发现通过单个 GPU 训练一天，仅使用 20 位数字，在 100 位加法问题上实现了高达 99% 的准确率的最新结果，并证明这种提高数字能力的方法也适用于其他多步骤推理任务，如排序和乘法。

May, 2024

二值化神经网络

本文介绍了一种对二值化神经网络进行训练的方法，并在 Torch7 和 Theano 两个框架下，对 MNIST、CIFAR-10 和 SVHN 数据集进行了实验，取得了近乎领先水平的结果。通过在前向传递过程中使用二值化的权重和激活值，可以大幅减少内存消耗，用位运算取代大多数算术运算，并且使用二进制矩阵乘法 GPU 内核可以比未优化的 GPU 内核快 7 倍，而不会损失分类准确度。

Feb, 2016

神经程序员：利用梯度下降诱导潜在程序

本研究提出了一种新颖的神经程序模型（Neural Programmer），该模型扩展了具有少量基本算术和逻辑运算的不可区分神经网络，此模型可以在多个步骤中调用这些扩展操作，因此产生的组成程序比内置操作更复杂。该模型采用相对较弱的监督信号进行训练，不需要昂贵的编写正确程序的注释，经过训练在很复杂的综合表理解数据集中取得了几乎完美的准确度。

Nov, 2015

大规模神经网络训练调查

本文系统地讨论了提高深度神经网络训练效率的方法，重点考虑了内存利用率和 GPU 训练，分类总结了相关策略，并且比较了不同类别之间的方法。

Feb, 2022

在 GPU 上优化循环神经网络的性能

通过在网络中暴露操作之间的并行性，我们实现了对于各种网络规模的 10 倍加速优化，这种优化的实现被整合到了 NVIDIA 的 cuDNN 的第五个版本中。

Apr, 2016

对序列长度进行非线性顺序模型的并行化

通过并行算法提高 GPU 评估顺序模型的速度，解决传统顺序模型训练速度缓慢的问题，加快训练速度同时保持输出准确性，使得非线性顺序模型在长序列问题中具备潜力。

Sep, 2023