BriefGPT.xyz
Ask
alpha
关键词
non-stationary mdps
搜索结果 - 2
MetaCURL: 非平稳凹效用强化学习
我们通过元算法和专家集成的方法在非平稳环境(变换的损失和概率转换)中探索在线学习在无环节马尔可夫决策过程中的应用,重点研究了处理凸性性能准则的经典强化学习的扩展问题 CURL。我们的方法能够在部分信息下,不需要先验的 MDP 更改知识,实现
→
PDF
a month ago
ICML
一般函数近似下的非平稳强化学习
本论文针对非平稳 MDP 问题,提出了一种复杂度指标 Dynamic Bellman Eluder 维度和一种新的置信区间算法 SW-OPEA,通过对非平稳线性和表格 MDPs 的示例进行演示,表明该算法在小变化预算场景下性能优于现有的 U
→
PDF
a year ago
Prev
Next