Jun, 2023

PAGAR:带有主角 - 反角引导的对抗性奖励的模仿学习

TL;DR本文提出 PAGAR,这是一种用于设计策略训练奖励的半监督学习范例,该算法采用迭代对抗搜索奖励函数,以最大化主角策略和反派策略之间的性能差距,并保证训练出的策略在底层任务中成功执行。实验结果表明,与现有的基于 IL / IRL 的算法相比,PAGAR 在标准设置中实现了更高的训练效率,并能够在转移环境中进行零样本学习。