Dec, 2021
通过MDP的变分抽象以形式化保证实现RL策略的蒸馏(技术报告)
Distillation of RL Policies with Formal Guarantees via Variational
Abstraction of Markov Decision Processes (Technical Report)
TL;DR在强化学习中,为了解决政策简化和验证的挑战,作者们构建了DeepMDP框架,基于该框架可以得到未知环境和离散潜在模型之间的新的双模拟边界,该边界可以为MDP的形式方法应用提供支持。同时,作者们还演示了如何通过最先进的RL获得一个政策,并使用该政策有效地训练一个VAE模型,获得这个模型的双模拟保证的近似正确性的提炼版。