Nov, 2023

通用策略的不变因果模仿学习

TL;DR基于多个环境中的行为演示来学习模仿策略,通过学习跨域不变的特征表示,构建与专家行为匹配的模仿策略,以实现在未见环境中的泛化能力。