ICLRMar, 2023

Wasserstein 自编码 MDPs:高效提纯 RL 策略的形式验证与多面保证

TL;DR介绍了一种利用 Wasserstein 自编码马尔可夫决策过程(WAE-MDP)实现深度强化学习在安全关键场景下部署策略的新方法,该方法能快速地精简策略。实验结果表明,该方法提高了潜在模型的质量,具有实际应用价值。