BriefGPT.xyz
Ask
alpha
关键词
policy estimation
搜索结果 - 6
策略梯度方法的矩阵低秩近似
基于低秩矩阵模型的策略优化方法降低了神经网络模型的计算和样本复杂度,同时实现了类似的累积奖励。
PDF
a month ago
LQR 元策略估计的 Moreau 包络方法
基于不确定动态系统的有限实现集,我们提出了一种基于 Moreau 包络的代理 LQR 成本方法,以定义一种能够高效适应新实现的元策略,并设计了一种算法来寻找元 LQR 成本函数的近似一阶稳定点。数值结果表明,所提出的方法在新的线性系统实现上
→
PDF
3 months ago
强化学习的可复制性
探讨强化学习领域中复制性的数学研究,提出了基于生成模型下的可复制性 RL 算法,其中包括一个有效的 $ ho$-replicable 算法和一个可计算的近似可复制的算法。
PDF
a year ago
高维状态空间中具有有限时间保证的马尔可夫决策过程的结构估计
本文提出了一种单步估计算法,用于处理高维状态空间,同时又不会降低奖励估计精度的问题。该算法通过随机梯度最大化似然函数,使每次策略改进都能够进行。研究表明,该算法可以达到平稳状态,同时在 MuJoCo 机器人控制问题和其转移设置中,相比其他逆
→
PDF
2 years ago
利用对手意识训练目标导向对话策略
提出了一种考虑对手行为的目标导向对话策略学习框架,通过对对手行为的估计来优化自身策略,实现在合作与竞争对话任务中的优越表现。
PDF
4 years ago
随机原始对偶方法和强化学习样本复杂性
本文研究了马尔可夫决策过程 (MDP) 的最优策略在线估计问题,并提出了一类基于随机原始对偶法的方法,利用 Bellman 方程的内在极小极大对偶性进行优化。 这些方法具有小的存储空间和低的计算复杂度,通过观察新的状态转移更新值和策略估计的
→
PDF
8 years ago
Prev
Next