BriefGPT.xyz
Ask
alpha
关键词
trust-region methods
搜索结果 - 2
基于度量感知的信赖域算法保证收敛的策略优化
本文探讨基于 KL 散度的信任域方法在强化学习中的应用,进而提出基于 Wasserstein 和 Sinkhorn 两种新的信任域方法用于策略优化,并在多个任务中进行了实验验证。
PDF
a year ago
非凸优化中不精确 Hessian 信息的牛顿类型方法
本文研究了基于 Hessian 矩阵近似的非凸优化中信任域和立方正则化方法的变体。通过对不精确 Hessian 矩阵的渐进解和相应子问题的近似解,提供了迭代复杂度,以实现达到二阶最优条件的近似解,并且在现有文献中条件松弛。
PDF
7 years ago
Prev
Next