改进基于神经网络 GPU 的算法学习架构
本研究提出一种神经网络结构 —— 神经 GPU 来解决 Neural Turing Machine 中存在的训练难题,实现了对于尺寸不确定的输入进行算法训练,并能成功地推广到更长的算法实例中。通过参数共享放松、少量的 dropout 和渐变噪声的技术应用,神经 GPU 在训练和泛化方面收到了显著的正面效应。
Nov, 2015
本文介绍了两种方式来改进神经 GPU 模型,包括设计课程和增加模型大小,在 10 进制表示下解决所有算术操作并学习执行多操作数算术表达式,同时调查其故障模式与对手示例相似。
Nov, 2016
本文旨在实现深度神经网络硬件实现的超高能效和性能,提出一种面向不同类型、大小和应用场景的 DNN 算法 - 硬件协同优化框架,并在硬件部分采用高效的 FPGA 实现,实验表明与 IBM TrueNorth 处理器和参考的 FPGA 实现相比,该框架至少实现了 152 倍的加速和 71 倍的能效增益。
Feb, 2018
该研究提出了一种神经算术逻辑单元 (NALU) 的架构,它将数字数量表示为线性激活,再通过学习和控制基本算术运算符的门控制来进行操作,实验结果表明,NALU 增强的神经网络在数字值范围内外的推广性能更好。
Aug, 2018
本文提出了一种基于现代 GPU 设计 GPU 高效网络的通用原则,通过简单且轻量级的方法搜索 GPU 高效网络结构,相较于大多数神经体系结构搜索方法(NAS),该结构具有简单且低计算开销的优势。通过该原则,我们设计出了一系列 GPU 高效网络,称为 GENets,该结构在 ImageNet 上获得了 81.3 % 的 top-1 准确率,比 EfficienNet 在 GPU 上快 6.4 倍。
Jun, 2020
我们的工作通过识别最合适的 GPGPU 用于 CNN 推理系统,提出了一种加快 DSE 过程的方法。我们开发了一种快速而精确的技术来预测 CNN 推理过程中的功耗和性能,MAPE 分别为 5.03%和 5.94%。这种方法使计算机架构师能够在开发初期估计功耗和性能,减少了大量原型的必要性。这不仅节省了时间和金钱,同时也改善了上市时间。
Aug, 2023
本文综述以硬件加速为视角,探讨深度学习及可编程门阵列的发展趋势和革新,旨在讨论 FPGAs 在更好地为深度学习社区提供服务方面的最佳应用。
Feb, 2016
本文介绍了一种新的系统 ——GPU A-SGD,它同时利用了模型并行和数据并行的方法,加快了卷积神经网络的训练速度,从而可以使大型网络在较短时间内训练大型数据集。
Dec, 2013
本文讲述了研究者探讨替代循环神经网络的新架构(如基于注意力或卷积的架构)的计算能力,通过研究 Transformer 和 Neural GPU 的计算能力,发现这两种模型都可以纯粹依靠计算和访问数据的内部密集表示而成为图灵完备的,而不需要外部存储器。
Jan, 2019