使用随机计算图形式化方法优化序列对序列模型
通过引入随机计算图的形式化方法,该论文描述了如何自动推导损失函数梯度的无偏估计量,提出了一种计算梯度估计器的算法,从而统一了以前工作中推导的估算器和其中的方差减少技术,该算法使得研究人员可以开发涉及随机和确定性操作相结合的复杂模型,包括注意力、记忆和控制动作。
Jun, 2015
本文提出了一种基于可扩展序列注意力机制、归纳图神经网络和端到端可转移的深度强化学习方法,用于解决机器学习编译器生成高效机器代码时的图优化问题,并在多个图优化任务中取得显著性能提升。
Oct, 2020
通过统计学习理论的算法稳定性角度,本文提供了随机组合梯度下降算法的稳定性和泛化分析,包括引入组合均匀稳定性的概念、建立其与复合优化问题泛化性能的定量关系、针对两种常用的随机组合梯度下降算法 SCGD 和 SCSC 建立组合均匀稳定性结果,并通过权衡稳定性结果和优化误差,导出了 SCGD 和 SCSC 的维度无关的超额风险界限。据我们所知,这是第一次关于随机组合梯度下降算法稳定性和泛化分析的结果。
Jul, 2023
本文提出了一种新的基于梯度的随机凸复合优化方法,将估计序列概念推广到随机优化算法中,以一种简单通用的方式证明了众多随机优化算法的收敛性,并提出几种可靠性策略。
Jan, 2019
本文提出了一种渐进协同优化梯度算法的统一视角,通过推广 Nesterov 引入的估计序列概念,覆盖了随机梯度下降法,SAGA 和 SVRG 等方法,并提出了具有同样保证的新的算法,并推导了使这些算法抗击随机噪声的通用策略,最终证明了该视角有助于得到新的加速算法。
May, 2019
本文提出了一种名为 MGS 的新方法,其中基于随机搜索参数空间的分布,使用非确定性方法引导参数更新方向,从而优化序列级别的任务损失,实现了显著的重复性和非终止性减少,并产生与最小风险训练相似的性能。
Jun, 2020
本文研究了一系列经典目标函数,并将它们应用于神经序列到序列模型的训练,在 IWSLT'14 德语 - 英语翻译和 Gigaword 自动摘要等任务上达到了最新的最优结果。
Nov, 2017
提出了一种新的神经网络模型结合 Gated Graph Neural Networks 和输入转换解决了线性化启发式和参数爆炸问题,可以对 AMR 图和基于语法的神经机器翻译进行生成,实验结果表明该模型优于强基线模型。
Jun, 2018
本论文研究图结构数据的学习技术,以 Graph Neural Networks 为起点,使用门控循环单元和现代优化技术,并将其扩展为输出序列,展示出其在一些简单的 AI 和图算法学习任务中的能力,并在程序验证的问题中实现了最新水平的性能。
Nov, 2015