往深层网络添加梯度噪声可改善学习效果
本文探讨了相关的优化问题,尝试使用梯度削减,跨越更长的时间范围,强化动量技术,使用更强大的输出概率模型,以及鼓励更稀疏的梯度来帮助对称性打破和学分分配等几个方面,以提高长序列的训练的可行性和效率。实验结果在文本和音乐数据的训练和测试误差中表现出了显著的进步。
Dec, 2012
本文介绍如何在深度神经网络中引入基于模型的方法以及相关推理算法,并展示如何将传统的网络视为马尔科夫随机场的均场推理,在此基础上实现非负矩阵分解,得到一种新类型的深度神经网络以及有效的训练方法。通过语音增强实验得到了与传统神经网络相似的结果,但参数数量却大大减少。
Sep, 2014
提出一种系统性方法来减少深度神经网络训练的内存消耗,通过算法设计,在每个小批量仅需要一个额外正向传播的计算成本的情况下,以O(sqrt(n))的内存成本训练n层网络,使用计算图分析进行自动原地操作和内存共享优化,可以在更少的计算成本下实现更多的内存节约效果。
Apr, 2016
本文研究了如何在训练多层神经网络时,通过采用类局部搜索方法(如随机梯度下降)避免陷入不良局部最小值,在给定非凸非光滑结构的情况下,它们如何适应随机标签;研究了在神经网络中如何使用ReLU激活函数避免指数梯度爆炸或消失;通过构建扰动理论,该理论可用于分析ReLU激活的多层网络的一阶数学逼近。
Oct, 2018
本文提出了一种自适应随机梯度下降算法NovoGrad,具有分层梯度归一化和分离的权重衰减,模型在图像分类、语音识别、机器翻译和语言模型等领域中的表现优于标准的随机梯度下降算法SGD与Adam(优化算法),同时具有较好的鲁棒性、适用于大批量的训练,并且更省内存。
May, 2019
介绍了深度学习效率问题和五个核心领域,包括建模技术、基础设施和硬件,并提出实验指南和代码,为实践者优化模型培训和部署提供支持。这是第一个详尽的调查,涵盖了从建模技术到硬件支持的模型效率领域,帮助实践者实现改进并装备他们以进行进一步的研究和实验。
Jun, 2021
本研究旨在回顾各种最先进技术,探讨如何通过序列减少训练参数和使用像全局均值池化、深度卷积和挤压、模糊化池等技术进行分阶段训练来构建高效的深度卷积网络,并成功实现了在MNIST数据集上仅使用1500个参数达到99.2%的高准确度,并在CIFAR-10数据集上仅使用超过140K个参数达到了86.01%的高准确度。
May, 2022
本文提出了 Deep Language Network (DLN) 架构,通过 prompt 优化和变分推理算法,实现了运用较小、较弱 LLM 实现高性能的语言模型,以及进行 few-shot learning 的相关研究。
Jun, 2023
现代深度神经网络中,网络压缩已成为一项重要研究方向。本文通过综述现有文献,详细介绍了深度神经网络剪枝的研究方法、剪枝的不同层次以及未来发展方向,并提出了有价值的推荐建议。
Aug, 2023