关键词policy search algorithm
搜索结果 - 2
- 各州受限制的政策优化
State-wise Constrained Policy Optimization (SCPO) 是第一个面向状态限制的强化学习通用策略搜索算法,通过引入最大马尔科夫决策过程的框架,证明在期望下满足状态限制,并通过在高维机器人任务中的有效 - 在对抗性线性混合 MDPs 中的无限制视野强化学习
本文通过提出第一个无界时间步长多次对抗强化学习的策略搜索算法,使用方差 - 不确定性感知加权最小二乘估计器和基于占用度量的在线搜索技术,以解决探索和对抗性奖励所带来的挑战,证明算法在全信息反馈下具有 O ((d+log (|S|^2|A|)