BriefGPT.xyz
大模型
Ask
alpha
关键词
average reward criterion
搜索结果 - 3
可证明的基于策略梯度法的平均奖励马尔可夫潜力博弈方法
研究马尔可夫潜势博弈在无限时间平均回报准则下,证明基于独立策略梯度和独立自然策略梯度的算法都能在全局收敛到纳什均衡点,同时提出了渐进性和底座条件,通过梯度和微分值函数的灵敏度边界为梯度方法奠定了基础,并证明了三种算法的收敛性以及具体的时间复
→
PDF
4 months ago
ICML
基于确定性策略搜索的离线平均回报演员 - 评论家算法
本文研究了强化学习中平均回报和折扣回报的区别,提出了面向平均回报的策略梯度定理,同时开发了基于此理论的 Average Reward Off-Policy Deep Deterministic Policy Gradient (ARO-DD
→
PDF
a year ago
AAAI
层次平均回报策略梯度算法
本文扩展了分层 option-critic 策略梯度定理,旨在通过使用基于常微分方程的方法分析,优化代理的策略,最大限度地获得马尔可夫链的最终奖励,并在稀疏奖励的网格世界环境中表明了学习 option 的竞争优势。
PDF
5 years ago
Prev
Next