Apr, 2023

自监督对抗模仿学习

TL;DR本文提出一个包含鉴别器的行为克隆学习方法,用于解决之前的学习策略容易被困入错误局部最小值的问题,避免了人工干预的需要,利用鉴别器计算得到过渡函数从而帮助学习。