IJCAIApr, 2023

DEIR: 基于判别模型的情节内在奖励的高效稳健探索

TL;DR本论文提出一种基于条件互信息的探索奖励方法 (DEIR),实现了从代理探索中产生的新颖性的累积学习。在 ProcGen 数据集的实验中表现出快速学习和良好的泛化性能。