May, 2021

跨域观测下的模仿学习

TL;DR本篇研究针对专家行为与训练代理之间的差异,提出了一种基于无配对无对齐的轨迹,以及循环一致性限制的框架,来学习对应关系以解决领域差异的问题,并通过实验证明了该方法的有效性。