Feb, 2024
用于单示范模仿学习的专家接近度作为替代奖励
Expert Proximity as Surrogate Rewards for Single Demonstration Imitation Learning
Chia-Cheng Chiang, Li-Cheng Lan, Wei-Fang Sun, Chien Feng, Cho-Jui Hsieh...
TL;DR单个示范模仿学习浅层奖励问题通过过渡判别基于 IL 方法得到缓解,在五个广泛采用的 MuJoCo 基准测试以及 “灵巧门” 环境中,该方法胜过现有的 IL 方法且达到专家级性能。