AAAIDec, 2021

通过 MDP 的变分抽象以形式化保证实现 RL 策略的蒸馏(技术报告)

TL;DR在强化学习中,为了解决政策简化和验证的挑战,作者们构建了 DeepMDP 框架,基于该框架可以得到未知环境和离散潜在模型之间的新的双模拟边界,该边界可以为 MDP 的形式方法应用提供支持。同时,作者们还演示了如何通过最先进的 RL 获得一个政策,并使用该政策有效地训练一个 VAE 模型,获得这个模型的双模拟保证的近似正确性的提炼版。