Feb, 2023

基于引导对比学习的观察模仿

TL;DR本文提出了基于视觉演示的学习控制策略的一种 IfO 算法,名为 BootIfOL,该算法旨在学习一种从智能体轨迹到目标轨迹的距离度量方式,通过对比学习训练出智能体控制策略,实验结果表明该算法可以在有限的演示轨迹上训练出有效的策略。