BriefGPT.xyz
Ask
alpha
关键词
bellman optimality equation
搜索结果 - 2
MM
非累计目标的强化学习
针对优化问题目标函数不能直接作为奖励和累计的情况,提出了一种基于 Bellman 最优条件下广义 Bellman 更新算法,其中使用一种广义操作代替原来 Bellman 更新规则中的求和操作。
PDF
a year ago
ICML
SBEED:非线性函数逼近的收敛强化学习
本文使用 Nesterov 的平滑技术和 Legendre-Fenchel 变换将贝尔曼方程式重新构成一个新的原始对偶优化问题,并开发了一个名为平滑贝尔曼误差嵌入的新算法来解决这个优化问题,其中可以使用任何可微分类函数。我们提供了通用非线性
→
PDF
7 years ago
Prev
Next