- 神经网络中的条件计算:原理与研究趋势
这篇论文总结了将条件计算方法应用于神经网络设计的新兴领域的原理和思想,特别关注可以根据输入动态激活或停用计算图的部分的神经网络。论文介绍了三种显著的实现方法:专家混合网络,令牌选择机制和提前终止神经网络,并分析了这些模块化设计在效率、可解释 - 条件适配器:具有快速推理的参数高效的迁移学习
该论文提出了一种名为 CoDA 的条件适配器方法,通过稀疏激活与少量新参数和轻量级训练阶段优化传输学习,实验表明 CoDA 方法提供了一种出人意料的高效的知识转移方式,并在语言、视觉和语音任务中实现 2 至 8 倍的推理速度提升,且几乎不损 - ICLR具有条件计算的神经网络的记忆容量
研究神经条件计算的基本限制和记忆能力,展示条件 ReLU 网络可以用更少的算术操作完成相同任务,还介绍了一种将无条件网络合成为条件网络的有效方法。
- CoLT5: 带有条件计算的更快速的长距离 Transformer
提出了 CoLT5,它是一种长输入 Transformer 模型,通过采用条件计算来利用重要令牌,取得了比 LongT5 更强的性能,特别适用于长文本。有效地利用了长达 64k 字符的输入,取得了 SCROLLS 基准测试的 SOTA。
- 混合专家中改进专家专业化能力
本文提出一种新的 MoE 的门控网络结构,类似于注意力机制,可以在任务分解方面提高性能并导致更低的熵,同时介绍了一种新的数据驱动正则化方法,可以提高专家的专业化。
- CVPRBasisNet:高效推理的两阶段模型合成
本文提出了 BasisNet,它采用轻量级模型和两阶段模型合成策略,结合了高效神经网络体系结构、条件计算和早期终止,具有高效且精确的性能。在 ImageNet 分类基准测试中,使用 BasisNet 的 MobileNets 作为骨干网络, - ECCV使用 Gumbel Softmax 进行通道选择
论文提出了一种端到端的神经网络优化框架,通过同时考虑分类误差和批量激活损失,使用 Gumbel 重参数化来学习网络结构,在训练和推理中均能支持网络修剪与条件计算,实验结果在 ImageNet 分类任务中获得了 45-52% 的计算量降低。
- CVPRGaterNet:CNN 中的动态滤波器选择
本文提出了一种名为 GaterNet 的借助于门控网络实现的动态卷积神经网络滤波器选择框架,通过丰富 CNN 模型的学习方式,提高了模型性能并得出了比原论文更好的实验结果。
- NIPS模块化网络:学习分解神经计算
本研究提出了一种基于条件计算的灵活选择神经模块的训练算法,该算法能够提高深度学习中的模型容量而不需要过多的计算资源和训练时间,并且在图像识别和语言建模任务中实现了比现有方法更好的性能。
- EMNLP基于字符的神经机器翻译:容量和压缩的再思考
本论文通过设计深度模型对字符级信息进行序列到序列建模,并且验证了该模型优于传统的基于单词片段的模型,从而为字符级神经机器翻译提供了参考。同时,通过评估多种字符级 NMT 技术,发现它们不能与深层字符基线模型的表现相匹配。最后,我们还在该框架 - 庞大的神经网络:稀疏门控专家混合层
本文介绍了一种名为 Sparsely-Gated Mixture-of-Experts layer 的新型条件计算方法,通过使用该方法在语言建模和机器翻译等任务中获得比现有技术更好的结果,而只需在计算效率方面付出少量代价。
- 决策森林、卷积神经网络和中间模型
通过融合决策森林和卷积神经网络,提出了一种新的、具有条件计算和表示学习的混合模型 —— 条件网络,并在图像分类任务上对其进行了实验验证,结果表明它的计算成本和参数数量比现有卷积神经网络降低了很多,但准确率并没有下降。
- ICLR神经网络中的条件计算以加速模型
本研究利用强化学习作为优化条件计算策略的工具,通过使用策略梯度算法,以求得在计算速度上做到简约化激活且保持预测准确性的最优策略,并提出了鼓励样本多样化的正则化机制以实现机器学习模型在计算速度上的加速。
- 深度学习中条件计算的容量与计算比例呈指数级增长
该论文提出了一种新颖的神经网络权重矩阵参数化方法,通过激活一些参数和计算 “按需” 地在每个样本上进行,从而可以提高参数数量与计算之间的比率,以提高深度神经网络的泛化能力,并且通过树状结构的参数化方式,进一步控制过拟合。
- ICLR深度神经网络中条件前馈计算的低秩近似
本文研究深度神经网络中的可扩展性问题,提出了一种条件计算的方法,利用门控单元来确定节点何时进行计算,通过将权重矩阵分解成低秩逼近,能够有效地获得非线性激活前的正负号,在使用 ReLU 激活函数时,能够跳过一些节点的计算,加速稀疏神经网络的运 - 通过随机神经元估算或传播梯度以进行条件计算
研究使用四种方法解决带有随机神经元和硬非线性的神经网络中的梯度估计问题,其中一种最小方差无偏梯度估计器(REINFORCE 算法的一种特殊情况)适用于随机二元神经元,另一种方法将二元随机神经元的操作分解为随机二元部分和平滑可微部分,在稀疏随