BriefGPT.xyz
大模型
Ask
alpha
关键词
policy simplification
搜索结果 - 1
AAAI
通过 MDP 的变分抽象以形式化保证实现 RL 策略的蒸馏(技术报告)
在强化学习中,为了解决政策简化和验证的挑战,作者们构建了 DeepMDP 框架,基于该框架可以得到未知环境和离散潜在模型之间的新的双模拟边界,该边界可以为 MDP 的形式方法应用提供支持。同时,作者们还演示了如何通过最先进的 RL 获得一个
→
PDF
3 years ago
Prev
Next