Nov, 2020

基于重置游戏的控制基元继续学习技能发掘

TL;DR提出一个能够在解决真实世界中很多挑战的同时,通过学习'重置技能'来帮助代理人更有效地学习技能的通用博弈形式方法,并实验表明该方法可以显著提高代理人的表现和加速后续学习。