Dec, 2016

损失即奖励:自监督增强学习

TL;DR本文探讨了如何通过自我监督预训练和联合优化来增加辅助损失,提高强化学习中的数据效率和策略回报。