BriefGPT.xyz
Ask
alpha
关键词
low-rank mdps
搜索结果 - 5
离线约束强化学习的低秩 MDP 原始 - 对偶算法
该论文提出了一种用于解决低秩 Markov 决策过程的离线强化学习算法,该算法在折扣无限时间段设置中具有较低的样本复杂度,且支持离线约束强化学习设置。
PDF
5 months ago
低秩马尔可夫决策过程中可证明高效的 CVaR 强化学习
我们研究了风险敏感的强化学习 (RL),其中我们的目标是通过固定风险容忍度 τ 来最大化条件风险价值 (CVaR)。我们在大规模状态空间中使用 CVaR RL 来拓展推广 CVaR RL,功能逼近必须得到部署。在非线性功能逼近中,我们研究了
→
PDF
8 months ago
学习具有未知转移和全信息反馈的对抗性低秩马尔可夫决策过程
通过代表学习、探索和利用等相互交织的方法,本论文以非线性函数逼近和对抗性损失为基础,提出一种 POLO 算法,以实现对低秩马尔可夫决策过程 (Low-rank MDPs) 的次线性遗憾保证。
PDF
8 months ago
低秩马尔可夫决策过程中的高效无模型探索
VoX 算法是首个可证明的高效的基于样本的搜索低阶马尔可夫决策过程算法,具备泛化功能近似且无需其他结构假设。该算法通过交替表示学习和策略优化,利用通用最优设计概念实现有效的最优设计计算。我们的分析简单而模块化,包括基于 Frank-Wolf
→
PDF
a year ago
关于非线性强化学习无奖探索的统计效率
本文研究对一般非线性函数逼近的无奖励强化学习,提出了 RFOLIVE 算法以进行样本有效的非线性函数逼近的无奖励探索,并在低秩 MDPs 等假设下给出了正面与负面的结果。
PDF
2 years ago
Prev
Next