BriefGPT.xyz
Ask
alpha
关键词
gradient estimates
搜索结果 - 4
SARC:软性演员回顾评论家
本文提出了软演员回溯评论家(SARC)算法,通过增加回溯损失项来改进 SAC 的评论家学习,从而提高政策梯度估计和实现更好的策略,在基准环境中展示了 SARC 对 SAC 的持续改进表现。
PDF
a year ago
ICML
关于深高斯过程变分推断中信噪比问题的研究
通过理论分析和大量实验证明,在 Deep Gaussian Processes (DGPs) 使用加权变分推断训练的梯度估计中,信噪比问题是普遍存在的。本文提出的基于双重重参数化的梯度估计方法解决了这个问题,提高了 DGPs 模型的预测性能
→
PDF
4 years ago
广义式博弈中随机后悔最小化
本论文提出了一种新的用于开发随机后悔最小化方法的框架,该框架允许使用任何后悔最小化算法,结合任何梯度估算器,可以实例化几种新的随机方法来解决顺序游戏,并在三个游戏上展示了广泛的实验结果,其中一些方法的变体表现优于 MCCFR。
PDF
4 years ago
用随机梯度变分贝叶斯近似伽马分布
本文研究了使用梯度的 log posterior 方法来控制梯度估计方差的问题,并应用到伽马分布潜在变量中,以实现稀疏性和非负性适用的模型的黑盒变分推断。该方法在网络数据的伽马过程模型和一种新型的稀疏因子分析中的应用效果均优于传统采样算法和
→
PDF
9 years ago
Prev
Next