关键词dynamic regret analysis
搜索结果 - 2
- ICML一般函数近似下的非平稳强化学习
本论文针对非平稳 MDP 问题,提出了一种复杂度指标 Dynamic Bellman Eluder 维度和一种新的置信区间算法 SW-OPEA,通过对非平稳线性和表格 MDPs 的示例进行演示,表明该算法在小变化预算场景下性能优于现有的 U - 使用线性函数逼近的非平稳强化学习
这篇研究采用线性函数逼近的方法来应用强化学习在马尔科夫决策过程中,通过衡量合适的指标来保证奖励和状态转移函数变化的幅度不超过一定的上限,提出了两种最优算法:LSVI-UCB-Restart 和 Ada-LSVI-UCB-Restart。该研