关键词natural policy gradient algorithm
搜索结果 - 3
- 自然策略梯度在无限状态平均奖励马尔可夫决策过程上的收敛性
该研究证明了自然策略梯度算法在无限状态的平均奖励马尔可夫决策过程中的收敛速度,如果采用良好的初始策略进行初始化,则收敛速度为 O (1/√T)。此外,针对大类排队马尔可夫决策过程,最大权重策略足以满足我们的初始策略要求并实现 O (1/√T - 使用线性函数逼近学习无限时间平均回报马尔可夫决策过程
开发多种学习用于 Markov Decision Processes 的无限时间平均奖励设置和线性函数逼近的算法,使用乐观原则和假设 MDP 具有线性结构,提出具有优化的计算效率的算法,并展开了详细的分析,改进了现有最佳结果。
- 非抓取性操作的强化学习:从仿真到物理系统的转移
本研究使用一种修改自然策略梯度算法的模型,通过模拟学习并训练,成功将自主控制策略从虚拟系统转移到由三个机器人组成的物理系统中,并证明使用多个模型训练可以使学习到的策略更加稳健,从而弥补了系统识别的困难。