改进基于神经网络 GPU 的算法学习架构

Feb, 2017

改进基于神经网络 GPU 的算法学习架构

Improving the Neural GPU Architecture for Algorithm Learning

Karlis Freivalds, Renars Liepins

TL;DR介绍一种提高训练效率和泛化能力的神经 GPU 算法，该算法利用新的技术和对活动存储结构的对角门技术来学习十进制乘法。

Abstract

algorithm learning is a core problem in artificial intelligence with significant implications on automation level that can be achieved by machines. Recently →

algorithm learning artificial intelligence deep learning neural gpu decimal multiplication

发现论文，激发创造

神经 GPU 学习算法

本研究提出一种神经网络结构 —— 神经 GPU 来解决 Neural Turing Machine 中存在的训练难题，实现了对于尺寸不确定的输入进行算法训练，并能成功地推广到更长的算法实例中。通过参数共享放松、少量的 dropout 和渐变噪声的技术应用，神经 GPU 在训练和泛化方面收到了显著的正面效应。

Nov, 2015

神经 GPU 的扩展和限制

本文介绍了两种方式来改进神经 GPU 模型，包括设计课程和增加模型大小，在 10 进制表示下解决所有算术操作并学习执行多操作数算术表达式，同时调查其故障模式与对手示例相似。

Nov, 2016

深度学习系统的超高性能和能量效率：一种算法 - 硬件协同优化框架

本文旨在实现深度神经网络硬件实现的超高能效和性能，提出一种面向不同类型、大小和应用场景的 DNN 算法 - 硬件协同优化框架，并在硬件部分采用高效的 FPGA 实现，实验表明与 IBM TrueNorth 处理器和参考的 FPGA 实现相比，该框架至少实现了 152 倍的加速和 71 倍的能效增益。

Feb, 2018

神经算术逻辑单元

该研究提出了一种神经算术逻辑单元 (NALU) 的架构，它将数字数量表示为线性激活，再通过学习和控制基本算术运算符的门控制来进行操作，实验结果表明，NALU 增强的神经网络在数字值范围内外的推广性能更好。

Aug, 2018

用于 GPU 高效网络的神经结构设计

本文提出了一种基于现代 GPU 设计 GPU 高效网络的通用原则，通过简单且轻量级的方法搜索 GPU 高效网络结构，相较于大多数神经体系结构搜索方法（NAS），该结构具有简单且低计算开销的优势。通过该原则，我们设计出了一系列 GPU 高效网络，称为 GENets，该结构在 ImageNet 上获得了 81.3 % 的 top-1 准确率，比 EfficienNet 在 GPU 上快 6.4 倍。

Jun, 2020

机器学习辅助的卷积神经网络推断系统计算机架构设计

我们的工作通过识别最合适的 GPGPU 用于 CNN 推理系统，提出了一种加快 DSE 过程的方法。我们开发了一种快速而精确的技术来预测 CNN 推理过程中的功耗和性能，MAPE 分别为 5.03％和 5.94％。这种方法使计算机架构师能够在开发初期估计功耗和性能，减少了大量原型的必要性。这不仅节省了时间和金钱，同时也改善了上市时间。

Aug, 2023

通过前向传播错误学习表示

基于正向传播方法和代数几何中的双重数概念，提出了一种在 CPU 上与 GPU 上的 CUDA 加速相比都快速的轻量级学习算法

Aug, 2023

基于 FPGA 的深度学习：过去、现在和未来

本文综述以硬件加速为视角，探讨深度学习及可编程门阵列的发展趋势和革新，旨在讨论 FPGAs 在更好地为深度学习社区提供服务方面的最佳应用。

Feb, 2016

GPU 异步随机梯度下降加速神经网络训练

本文介绍了一种新的系统 ——GPU A-SGD，它同时利用了模型并行和数据并行的方法，加快了卷积神经网络的训练速度，从而可以使大型网络在较短时间内训练大型数据集。

Dec, 2013

现代神经网络结构的图灵完备性

本文讲述了研究者探讨替代循环神经网络的新架构（如基于注意力或卷积的架构）的计算能力，通过研究 Transformer 和 Neural GPU 的计算能力，发现这两种模型都可以纯粹依靠计算和访问数据的内部密集表示而成为图灵完备的，而不需要外部存储器。

Jan, 2019