AAAIJul, 2019

一种基于内在动机的学习方法,用于学习高度探索和快速运动策略

TL;DR本文提出一种新的代理与环境相互作用下的探索策略,旨在最小化步骤数、最大化稳态分布熵的下界,并引入三个下界分别对应三个最优化问题,再基于此提出 IDE$^{3}$AL 算法进行模型驱动的强化学习。