Nov, 2020

软数据增强在强化学习中的泛化

TL;DR本文提出了SOft Data Augmentation(SODA)方法,通过在编码器上施加约束,最大化增强和非增强数据的潜在表示之间的互信息,从而提高强化学习的样本效率、泛化能力和稳定性,实验表明该方法显著优于最先进的基于视觉的RL方法。