Aug, 2022

强化学习中基于时间不一致性的自监督探索

TL;DR本文提出一种新的内在奖励方法,利用自监督预测模型和核范数来评估历史知识对当前观察的差异,以此解决稀疏奖励的强化学习问题,并在多个基准环境下展示其优越性。