Jul, 2023

基于Fenchel二次对偶的多样化离线模仿

TL;DR我们提出了一种离线技能发现算法,该算法基于互信息目标的最大化,通过KL散度进行约束,确保每种技能的状态占用率保持在离线数据集的支持范围内的专家状态占用率附近,从而学习与专家相一致的多样化技能。