BriefGPT.xyz
Ask
alpha
关键词
dual variables
搜索结果 - 2
AlgaeDICE: 来自任意经验的策略梯度
本文提出一种新颖的强化学习算法,利用双重变量不等式技术,通过辅助最优化问题得到二阶鞍点,无需使用重要性加权,实现了从任意行为策略上学习并优化目标策略。
PDF
5 years ago
SDNA:随机二次牛顿提升算法用于经验风险最小化
通过 Stochastic Dual Newton Ascent 算法,我们提出一种新的途径最小化正则化经验损失,该方法更新了随机子集的对偶变量,可以利用模型中所有曲率信息,实践中有着明显的提高,特别对于二次损失函数。
PDF
9 years ago
Prev
Next