Dec, 2017

基准引导的安全策略改进

TL;DR本文提出了一种名为SPIBB的方法,通过基线引导来提高策略,保证其至少与基线策略一样好,尤其在神经网络表示系统的批处理数据中,相比现有算法在安全性和均值性能方面有更好的表现。