BriefGPT.xyz
Ask
alpha
关键词
expected sarsa
搜索结果 - 3
使用强化学习解决乌尔王宫游戏
本研究采用蒙特卡罗、Q 学习和预期 Sarsa 等不同的方法来训练智能体,学习下古老的策略性游戏乌尔王的最优策略,并表现出不错的结果和学习能力。其中,预期 Sarsa 在学习速度方面表现出色。
PDF
2 years ago
AAAI
梯度预期 Sarsa ($λ$) 的收敛性
本研究针对线性函数近似下的 Expected Sarsa 算法的收敛问题,通过提出收敛性较好的 Gradient Expected Sarsa 算法,并应用 Lyapunov 函数技术分析其性能,得到较优实验结果。
PDF
4 years ago
AAAI
强化学习的预期策略梯度
提出了期望策略梯度(EPG)方法,将随机策略梯度(SPG)和确定性策略梯度(DPG)方法统一起来,用于连续或离散动作空间的强化学习中,实验证明其在多项控制任务中胜过现有方法。
PDF
6 years ago
Prev
Next