May, 2018

通过策略提取实现可验证的强化学习

TL;DR使用 VIPER 算法训练决策树策略来增强强化学习的安全性和验证性,它相对于其他算法在 Atari Pong 和 cart-pole 这两项任务上都有着可靠的表现。