BriefGPT.xyz
Ask
alpha
关键词
portal
搜索结果 - 1
非平稳低秩 MDP 的可证明高效算法
本研究在探讨非平稳马尔可夫决策过程下的强化学习问题,针对低秩模型中存在未知表示的情况,提出了参数依赖的优化算法 PORTAL 和参数无关的改进版 Ada-PORTAL,通过样本复杂度进行理论分析并得出上界,证明了在非平稳性不显著时,这两种算
→
PDF
a year ago
Prev
Next