Oct, 2020

一个解决方案并不足以满足所有需求:基于结构化的最大熵强化学习的少样本外推

TL;DR本文提出一种基于多样性推动的强化学习方法,能够学习多种解决任务的行为,从而实现能够适应多变环境和任务的泛化能力,同时,文中理论和实验结果表明,此方法能够产生一个健壮性环境集合。