BriefGPT.xyz
大模型
Ask
alpha
关键词
deepmdp
搜索结果 - 2
AAAI
通过 MDP 的变分抽象以形式化保证实现 RL 策略的蒸馏(技术报告)
在强化学习中,为了解决政策简化和验证的挑战,作者们构建了 DeepMDP 框架,基于该框架可以得到未知环境和离散潜在模型之间的新的双模拟边界,该边界可以为 MDP 的形式方法应用提供支持。同时,作者们还演示了如何通过最先进的 RL 获得一个
→
PDF
3 years ago
ICML
深度 MDP:学习连续潜空间模型以进行表征学习
介绍了一种参数化潜变量空间模型 DeepMDP,通过学习奖励和下一个潜变量状态的预测来训练模型,以提高强化学习中连续状态的表示效果,并证明其在 Atari 2600 游戏中可以明显提高模型性能。
PDF
5 years ago
Prev
Next