使用随机计算图形式化方法优化序列对序列模型

NIPSNov, 2017

使用随机计算图形式化方法优化序列对序列模型

Using stochastic computation graphs formalism for optimization of sequence-to-sequence model

Eugene Golikov, Vlad Zhukov, Maksim Kretov

TL;DR利用随机计算图形式化了一种以别名函数为损失函数的机器翻译优化问题，提供了统一的视角，可以帮助研究人员开发带有内嵌随机节点的新网络架构。

Abstract

Variety of machine learning problems can be formulated as an optimization task for some (surrogate) loss function. Calculation of loss function can be viewed in terms of →

machine learning optimization stochastic computation graphs sequence-to-sequence model machine translation

发现论文，激发创造

使用随机计算图估算梯度

通过引入随机计算图的形式化方法，该论文描述了如何自动推导损失函数梯度的无偏估计量，提出了一种计算梯度估计器的算法，从而统一了以前工作中推导的估算器和其中的方差减少技术，该算法使得研究人员可以开发涉及随机和确定性操作相结合的复杂模型，包括注意力、记忆和控制动作。

Jun, 2015

随机计算图中的信用分配技术

本文提出一种通用且高效的通过强化学习概念来解决梯度估计算法高方差问题的方法，其中包括引入价值函数、基线和评论家等概念，实现了对随机计算图的梯度下降优化。

Jan, 2019

ML 编译器的可转移图优化器

本文提出了一种基于可扩展序列注意力机制、归纳图神经网络和端到端可转移的深度强化学习方法，用于解决机器学习编译器生成高效机器代码时的图优化问题，并在多个图优化任务中取得显著性能提升。

Oct, 2020

随机组合梯度下降算法的稳定性和概化能力

通过统计学习理论的算法稳定性角度，本文提供了随机组合梯度下降算法的稳定性和泛化分析，包括引入组合均匀稳定性的概念、建立其与复合优化问题泛化性能的定量关系、针对两种常用的随机组合梯度下降算法 SCGD 和 SCSC 建立组合均匀稳定性结果，并通过权衡稳定性结果和优化误差，导出了 SCGD 和 SCSC 的维度无关的超额风险界限。据我们所知，这是第一次关于随机组合梯度下降算法稳定性和泛化分析的结果。

Jul, 2023

随机复合优化的估计序列：方差降低、加速和对噪声的鲁棒性

本文提出了一种新的基于梯度的随机凸复合优化方法，将估计序列概念推广到随机优化算法中，以一种简单通用的方式证明了众多随机优化算法的收敛性，并提出几种可靠性策略。

Jan, 2019

减少方差的随机复合优化的序列估计

本文提出了一种渐进协同优化梯度算法的统一视角，通过推广 Nesterov 引入的估计序列概念，覆盖了随机梯度下降法，SAGA 和 SVRG 等方法，并提出了具有同样保证的新的算法，并推导了使这些算法抗击随机噪声的通用策略，最终证明了该视角有助于得到新的加速算法。

May, 2019

神经序列建模任务损失最小化参数搜索中的 MLE 指导

本文提出了一种名为 MGS 的新方法，其中基于随机搜索参数空间的分布，使用非确定性方法引导参数更新方向，从而优化序列级别的任务损失，实现了显著的重复性和非终止性减少，并产生与最小风险训练相似的性能。

Jun, 2020

用于序列到序列学习的经典结构化预测损失

本文研究了一系列经典目标函数，并将它们应用于神经序列到序列模型的训练，在 IWSLT'14 德语 - 英语翻译和 Gigaword 自动摘要等任务上达到了最新的最优结果。

Nov, 2017

门控图神经网络实现的图到序列学习

提出了一种新的神经网络模型结合 Gated Graph Neural Networks 和输入转换解决了线性化启发式和参数爆炸问题，可以对 AMR 图和基于语法的神经机器翻译进行生成，实验结果表明该模型优于强基线模型。

Jun, 2018

门控图序列神经网络

本论文研究图结构数据的学习技术，以 Graph Neural Networks 为起点，使用门控循环单元和现代优化技术，并将其扩展为输出序列，展示出其在一些简单的 AI 和图算法学习任务中的能力，并在程序验证的问题中实现了最新水平的性能。

Nov, 2015