关键词return-conditioned supervised learning
搜索结果 - 3
- 价值增益的条件监督学习用于离线强化学习
通过结合 Neural Tangent Kernel 分析的价值函数,Value-Aided Conditional Supervised Learning (VCS) 方法有效地克服了 return-conditioned supervi - AAAI离线强化学习的评论引导决策转换器
离线强化学习中的 CGDT 方法结合了基于值函数的方法和决策 Transformer 的轨迹建模能力,通过整合学习的值函数,保证了指定目标回报和动作预期回报之间的直接对齐,从而弥合了 RCSL 的确定性和基于值函数方法的概率特性之间的差距。 - 无需贝尔曼完备性:基于模型的回归条件监督学习的轨迹拼接方法
在本文中,我们展示了基于回报条件的监督学习(RCSL)的离策略学习技术如何在具有放松了的 Bellman 完备性条件下收敛,使用两层多层感知机作为函数逼近器时实现了与动态规划方法相媲美的性能,并提出了 MBRCSL 框架,通过利用学习的动力