BriefGPT.xyz
Ask
alpha
关键词
linear mdp
搜索结果 - 4
ICLR
线性马尔可夫决策过程的无界遗憾
近期一些研究工作展示了强化学习中降低后悔的边界可以(几乎)与计划周期无关,即所谓的无周期边界。然而,这些后悔边界仅适用于允许对转移模型大小多项式依赖的设置,例如表格型马尔科夫决策过程(MDP)和线性混合 MDP。我们给出了流行的线性 MDP
→
PDF
4 months ago
改进的随机最短路径线性 MDP 无悔算法
提出两种新的无懊悔算法解决带有线性 MDP 的随机最短路径问题,其中第一种算法能够以较低的计算成本获得较小的后悔界,并且对于有限时间情况,还获得了对数后悔界;而第二种算法则实现了无时间限制情况下的近乎最优性,但计算成本较高。
PDF
3 years ago
线性 MDP 中多任务表示学习的能力
本文研究了多任务表示学习在线性马尔可夫决策过程下的样本复杂度问题,并提出了 “最少激活特征稀缺” 指标,证明了多任务表示学习可以降低样本复杂度的理论依据,并发现自适应采样技术对于保证高样本效率至关重要。
PDF
3 years ago
线性马尔可夫决策过程低切换成本可证效率算法
本文着重于线性马尔可夫决策过程(MDP)问题中的低转换成本,并提出了第一个具有低转换成本的线性 MDP 算法,同时通过低转换成本较小而达到了大体积的泛化。
PDF
4 years ago
Prev
Next