AAAIFeb, 2019

内省学习

TL;DR本文介绍了一种基于 Introspection Learning 的反向传播算法,使用该算法可直接向神经网络提问,无需通过与环境的交互,该算法不依赖强化学习算法,其返回的状态可用于检测策略的健康状况或塑造策略以满足安全约束的多种方式,证明了该算法在加速训练和提高安全性方面的有效性。