Jul, 2019

安全关键的强化学习中基于少量环境的泛化

TL;DR本文研究深度强化学习中有限的训练环境对安全和泛化性能的影响,通过模型平均和使用阻塞分类器等简单方法,可显著降低在网格世界中的灾难情况,但在 CoinRun 环境中会存在一定失败率,然而可以通过系集的不确定性信息来预测是否需要人类干预。