Nov, 2023

基于观测和示例的离线模仿的简明解决方案:可能包含不完整轨迹

TL;DR提出了一种从观测中进行离线模仿的方法,并使用轨迹感知的加权行为克隆策略,提高了鲁棒性和效果。