随机计算图中的信用分配技术
通过引入随机计算图的形式化方法,该论文描述了如何自动推导损失函数梯度的无偏估计量,提出了一种计算梯度估计器的算法,从而统一了以前工作中推导的估算器和其中的方差减少技术,该算法使得研究人员可以开发涉及随机和确定性操作相结合的复杂模型,包括注意力、记忆和控制动作。
Jun, 2015
通过对选择性赋权的 TD 方法进行统一描述和理解,介绍了如何将赋权应用于基于值的学习和规划算法中,以调节预测和控制问题中的后向信用分配。在这个空间中,我们还确定了一些现有的在线学习算法,它们可以作为特例进行选择性分配信用,并增加了一些可以反事实分配信用的算法,使得信用可以从轨迹和策略之外进行分配。
Feb, 2022
通过统计学习理论的算法稳定性角度,本文提供了随机组合梯度下降算法的稳定性和泛化分析,包括引入组合均匀稳定性的概念、建立其与复合优化问题泛化性能的定量关系、针对两种常用的随机组合梯度下降算法 SCGD 和 SCSC 建立组合均匀稳定性结果,并通过权衡稳定性结果和优化误差,导出了 SCGD 和 SCSC 的维度无关的超额风险界限。据我们所知,这是第一次关于随机组合梯度下降算法稳定性和泛化分析的结果。
Jul, 2023
研究表明,我们开发并分析了一种基于梯度的优化过程,我们称之为随机控制随机梯度(SCSG)。作为 SVRG 算法集合中的一员,SCSG 利用了两个尺度上的梯度估计,在快速尺度上的更新次数受到几何随机变量的控制。与大多数现有算法不同,SCSG 的计算成本和通信成本不一定与样本大小 n 成线性比例关系;实际上,当目标精度较低时,这些成本与 n 无关。对真实数据集的实验评估确认 SCSG 的有效性。
Sep, 2016
本文介绍如何将随机梯度下降算法与调整参数应用于概率建模中的近似后验推断,通过最小化数据生成分布与目标后验分布之间的 KL 散度作为理论框架,让 SGD 有效地作为贝叶斯推断的一种方法,发现其可以成为概率模型优化超参数的一种新途径。
Feb, 2016
本文提出了一种使用反向传播学习连续控制策略的统一框架,并通过将贝尔曼方程中的随机性视为外源噪声的确定性函数,来支持随机控制。结果是一系列从有值函数的无模型方法到无值函数的有模型方法的通用策略梯度算法谱。我们使用学习模型,但只需要来自环境的观察而不是模型预测轨迹的观察,最大程度地减少复合模型错误的影响。我们首先将这些算法应用于一个玩具随机控制问题,然后在模拟中将其应用于几个基于物理的控制问题。其中一种变体 SVG(1)显示了在连续领域同时学习模型,价值函数和策略的有效性。
Oct, 2015
介绍使用 Monte Carlo 梯度估计策略解决机器学习中的梯度问题和灵敏度分析的方法和历史发展,并深入探讨了路径、分数函数和测度梯度估计器的应用、关系和可能的泛化。
Jun, 2019
本文提出了一种新的梯度估计算法 HNCA,用于离散随机单元网络的信用分配,该方法通过基于其输出影响其子节点的程度来分配信用,证明 HNCA 产生的无偏梯度估计与 REINFORCE 估计器相比具有更小的方差,同时计算成本与反向传播相似。
Oct, 2021
CheapSVRG is proposed as a new stochastic variance-reduction optimization scheme which achieves a linear convergence rate through a surrogate computation while also balancing computational complexity.
Mar, 2016