Oct, 2019

有选择性的噪声注入和信息瓶颈在强化学习中的泛化

TL;DR研究了 RL 领域中常用的一些 regularization 技术,并提出一种名为 Selective Noise Injection(SNI)的技术,将注入噪音的正则化作用维持在一定范围内,同时缓解梯度下降的不良影响。另外还提出了结合信息瓶颈(Information Bottleneck,IB)技术和 SNI 技术的方法,在 Coinrun 普适性测试集上实现了显著的优于现有最先进的结果。