- 多层次约束优化问题中的随机黑盒模拟器
利用 Scout-Nd 算法进行多维随机约束优化,通过有效估计梯度、降低梯度估计噪声和应用多保真度方案,减少计算工作量,在标准基准测试中验证了该方法的有效性,表现出优于现有方法的性能。
- 具有随机有状态策略的高效强化学习
通过对后续政策梯度的跟踪,我们提出了一种训练有状态政策的新方法,将其分解为随机内部状态核和无状态策略,实现了对流行强化学习和模仿学习算法的有状态变体,同时比传统的逆传播算法具有更快和更简单的特点。
- SIMPLE: $k$-Subset 抽样的梯度估计器
通过使用前向离散 $k$- 子集采样与快速计算准确边际梯度的梯度代理相结合的方式,我们提出了一个新的梯度估计器 SIMPLE,它相对于 $k=1$ 时的 Gumbel 估计器表现出更低的偏差和方差,并在解释和稀疏线性回归方面取得了改进。同时 - AAAI离散潜变量模型自适应扰动梯度估计
本研究提出了第一个自适应梯度估计器 AIMLE,用于复杂离散分布的 IMLE,通过交换梯度信息密度和估计偏差的程度,自适应地确定目标分布,实验证明 AIMLE 能产生忠实的梯度估计,而需要比其他梯度估计器少数个数量级的样本。
- ACL松弛多文档摘要的多文档覆盖奖励
本文提出利用 RELAX 方法 fine-tune 多文档自动摘要系统,达到更好的效果,并验证其在多个数据集上的竞争性能。
- ICML一种可微分点过程及其在脉冲神经网络中的应用
本文介绍了一种用于训练具有隐藏神经元的脉冲神经网络(SNNs)的学习算法,探讨了一种基于路径梯度估计器的 SNNs 的替代梯度估计器,并开发了一种可微的点过程,用于导出替代梯度估计器。通过数值模拟,研究了梯度估计器的有效性。
- 高效深度强化学习的概率混合专家模型
本研究提出了一种基于高斯混合模型的概率混合专家策略,以及一种新的用于解决策略不可区分性问题的梯度估计器,成功应用于通用离线策略和在线策略深度强化学习算法,实验结果表明该方法在包括探索在内的多个方面优于单模态策略、其他混合专家策略和选项框架方 - VarGrad: 变分推断的低方差梯度估计器
本文提出了一种基于 VarGrad 的无偏梯度估计方法,在概率变分推断中应用较广,并证明其比分数函数方法具有更低的方差和更优秀的计算性能。
- ICML关于无偏 Alpha 散度最小化的困难
本文探讨信号噪声比的方法用于最小化近似分布和目标分布之间的 alpha-divergence,结果发现在高维的情况下,实现这种方法的可行性存在质疑。
- 零阶正则化优化(ZORO):近似稀疏梯度和自适应采样
该论文介绍了一种名为 ZORO 的方法,用于零阶、正则化优化问题,并证明了在凸设置下,其收敛速度仅对问题维度对数相关。
- 有序 SGD: 一种新的经验风险最小化随机优化框架
论文提出了一种新的随机优化方法,它有针对性地偏向于高损失值的观测结果,并证明该算法对于凸损失具有亚线性收敛率,对于弱凸损失(非凸)具有关键点,同时在 SVM、逻辑回归和深度学习等模型中获得了更好的测试误差。
- 矩阵博弈的方差减少
本研究提出了一种随机原始 - 对偶算法用于求解优化问题,并通过引入新的梯度估计算法,将计算复杂度降低到矩阵稀疏的情况下达到了最优。
- ICMLARSM:用于梯度反向传播的增强 - 强化 - 交换 - 合并估计器,适用于分类变量
使用 ARSM 梯度估算器通过加强 - REINFORCE - 交换 - 合并技术解决了通过分类变量进行反向传播的挑战,具有无偏差和低方差的特点。该方法使用 Dirichlet 分布的期望来重新表达梯度,并使用变量交换和共享随机数来获得显著 - 蒙特卡罗目标的双重重参数化梯度估计器
本文提出了一种称为双参数梯度估计器的方法,用于 Deep latent variable models 中的训练,并证明了该方法的可行性和有效性。
- ICML隐式分布的梯度估计的频谱方法
该论文提出了一种基于 Stein 恒等式和核算子的谱分解的梯度估计器,其中的特征函数由 Nyström 方法近似,可以直接估计梯度函数,适用于无采样点的外样本拓展,应用于无梯度的 Hamiltonian Monte Carlo 和带隐式分布 - NIPS非可导模型的重参数化梯度
提出了一种新的针对非可微密度模型的随机变分推断算法,通过对可微区域应用标准的重新参数化技巧、对边界区域应用流形采样,估计并得出梯度的高效率降低了方差并保持偏差的不变。
- 变分拒绝抽样
本文提出了一种采用拒绝抽样方法来舍弃具有低似然的变分后验采样的方法,并使用一种新的梯度估计器,以 MNIST 数据集为例,在估计边际对数似然时,相对于现有的基于单样本和多样本的方法,可以平均提高 3.71 个 nats 和 0.21 个 n - 降落完毕:变分推断中的简单、低差异度梯度估计器
我们提出了一种简单且通用的标准重参数化梯度估计变体,以用于变分证据下限。通过删除与评估参数有关的分数函数的导数,我们将产生一个无偏梯度估计器,其方差随着近似后验接近精确后验逐渐逼近零。我们从理论和实证方面分析了这种梯度估计器的行为,并将其推 - Gumbel-Softmax 分类再参数化
本论文介绍了一种新的 Gumbel-Softmax 梯度估计器,用于处理类别离散型变量,能够有效地支持半监督学习以及结构化输出预测和无监督生成建模任务,并且可以通过渐进式的方式向分类型分布过渡。
- ICLRMuProp: 随机神经网络的无偏反向传播
MuProp 是一种无偏的梯度估计器,用于训练包含离散采样操作的随机网络,并通过控制变量基于平均场网络的一阶泰勒展开来减少方差,其结果是无偏且经过良好的验证。