BriefGPT.xyz
Ask
alpha
关键词
linear mdps
搜索结果 - 4
在线线性 $ q^π $ 可实现 MDPs 中的 RL 与线性 MDPs 一样简单,只要你学会忽略什么
在线强化学习中的线性可实现的马尔可夫决策过程 (MDP),提出了一种计算效率较低的学习算法,通过跳过特定状态转化为线性 MDP,并证明了该算法在这种情况下具有多项式样本复杂度。
PDF
9 months ago
具有线性功能逼近的重尾奖励方差感知健壮增强学习
该论文提出了两个算法 - AdaOFUL 和 VARA,以解决在有限方差的重尾回报情况下的在线顺序决策问题。这些算法可以应用于线性随机赌博机和线性马尔可夫决策过程,并且新的算法优于之前的算法。其中 AdaOFUL 和算法 Huber 回归适
→
PDF
a year ago
ICML
通过对比表示学习使线性 MDPs 具有实用性
本研究提出了利用对比估计自动保证规范化的线性马尔可夫决策过程(MDPs)的可行性,实现了优秀的理论保证和实证性能,并引入了信心调整指数算法,实现了在面对不确定性时的高效和本质的乐观(或悲观)策略。
PDF
2 years ago
ICLR
面向高效部署的强化学习:下界和最优性
本篇论文基于 “约束优化” 的思想,提出了一种针对 RL 的”deployment efficiency“问题的理论表述,并使用有限时间线性 MDP 作为具体结构模型,揭示了在获取最佳策略的同时实现最小 “deployment comple
→
PDF
2 years ago
Prev
Next