适应性与固定计算时间的递归神经网络比较
本文介绍了一种自适应计算时间(ACT)的算法,它使得循环神经网络能够在接收输入和输出之间学习要执行多少计算步骤。ACT 要求最少的网络架构变化,并且是确定性和可微分的,在不会增加参数梯度的噪声的情况下表现良好。实验结果证明,ACT 在决定二进制向量的奇偶性,应用二元逻辑操作,加法和对真实数字排序的四个综合问题上表现出了显着的性能改进。此外,本文还在 Hutter 奖 Wikipedia 数据集上展示了字符级别的语言建模结果,ACT 在该场景下性能提升不是很大,但是它提供了对数据结构的引人瞩目的见解,更多的计算分配给了难以预测的转换,比如单词之间的空格和句子结束。这表明,ACT 或其他自适应计算方法可能提供一种推断序列数据分段边界的通用方法。
Mar, 2016
本文介绍了一种新颖的基于注意力机制的自适应计算算法,称为 DACT,与现有算法不同,是端到端可微的。该算法可以与许多网络配合使用;特别地,我们研究了其在广泛使用的 MAC 体系结构中的应用,使所需的循环步骤数量显著减少,从而改善了其性能与计算比率。此外,我们还表明,通过增加所使用的最大步骤数,即使在 CLEVR 数据集中也能超越我们最佳的非自适应 MAC 的准确性,证明我们的方法能够控制步骤数而不会显著降低性能。我们的方法提供的额外优点包括通过丢弃无用的步骤,并提供对底层推理过程的更多见解,从而显着提高了可解释性。最后,我们将自适应计算呈现为模型集成的等价形式,类似于专家混合配方。我们的实验代码和配置文件均可用于支持这一领域的进一步研究。
Apr, 2020
本文提出了 GACT,一种用于支持各种神经网络结构的 ACT 框架,旨在减小训练内存占用。通过分析 ACT 的近似梯度的线性化版本,我们证明了 GACT 的收敛性,而且不需要关于操作符类型或模型架构的先验知识。此外,我们提出了一种算法,通过估计每个张量对梯度的影响来决定压缩比率,以保证训练的稳定性。GACT 作为 PyTorch 库的实现,可用于卷积神经网络,transformers 和图神经网络,在使用 8.1 倍的较小的激活存储器减少训练内存占用,并且在几乎没有精度损失的情况下可以进行 4.2 到 24.7 倍的大批量训练。
Jun, 2022
本研究提出了一种改进的循环单元,使其能够在学习时不需要事先了解序列的时间结构就能够灵活地调整每个时间步骤的计算量,从而提高模型的容量和性能,实验证明该方法能够在评估任务中取得更好的性能表现并减少计算量。
Nov, 2016
为了满足物联网和边缘计算中高效人工智能的需求,本研究提出了 RepAct,这是一个可以重新参数化的自适应激活函数,专为在边缘设备的计算限制下优化轻量级神经网络而设计。通过采用可学习的自适应权重的多分支结构,RepAct 丰富了特征处理并增强了跨层解释性。在图像分类和目标检测等任务上进行评估时,RepAct 在轻量级网络中表现出色,对于 ImageNet100 数据集的 MobileNetV3-Small,准确率提升高达 7.92%,同时保持与 HardSwish 相当的计算复杂度。这种创新方法不仅最大程度地提高了模型参数效率,还显著改进了轻量级神经网络的性能和理解能力,展示了在实时边缘计算应用中的潜力。
Jun, 2024
本文提出了 DACT-BERT,一种用于增加自然语言处理的计算效率的自适应计算时间策略,该策略通过控制 Transformer block 的数量来改善 BERT 模型的计算效率。实验结果表明,相较于基线模型,DACT-BERT 在减少计算资源的情况下表现出色,并在其他计算资源受限的情况下也具有竞争力。
Sep, 2021
利用递归神经网络生成神经网络模型描述,并通过强化学习训练,使生成的结构在验证集上的预期精度最大化,可以在多个数据集上实现新型神经网络模型设计,其中 CIFAR-10 模型的测试误差率为 3.65%,优于先前采用类似结构的 SOTA 模型; 在 Penn Treebank 数据集上,生成的递归单元的测试置信度比先前 SOTA 模型提高了 3.6 和 1.214。
Nov, 2016
该论文提出了一种基于残差网络的深度学习架构,动态调整图像区域执行的层数,提高图像分类和物体检测的计算效率,并在实验中证明了计算时间映射与人眼注视位置之间具有惊人的相关性。
Dec, 2016
本文展示了通过将网络的某些部分保持适应性,即使在训练之后,增强了其功能和稳健性,并且展示了适应性网络在插值、网络部分退化稳定化和输入扭曲鲁棒性方面的计算功能,同时强调了适应性网络在机器学习中的潜力,使其不仅能学习复杂模式,还能动态调整以适应不断变化的环境,从而扩大其适用范围。
May, 2024