May, 2023

特权知识蒸馏用于模拟到真实策略泛化

TL;DR本文提出了一种称为历史信息瓶颈 (HIB) 的新型单阶段特权知识蒸馏方法,通过从历史轨迹中捕捉潜在的可变动态信息来学习特权知识表示,以弥合仿真与现实之间的差距,并证明该方法比现有方法具有更好的普适性。