BriefGPT.xyz
Ask
alpha
关键词
metacurl
搜索结果 - 1
MetaCURL: 非平稳凹效用强化学习
我们通过元算法和专家集成的方法在非平稳环境(变换的损失和概率转换)中探索在线学习在无环节马尔可夫决策过程中的应用,重点研究了处理凸性性能准则的经典强化学习的扩展问题 CURL。我们的方法能够在部分信息下,不需要先验的 MDP 更改知识,实现
→
PDF
a month ago
Prev
Next