Oct, 2020

弱监督政策学习

TL;DR本研究提出了一种基于弱监督学习的框架,通过与所有前置学习 agent 的策略建立相关协议,惩罚过拟合,并在弱监督下对 RL、BC 及标准政策联合训练等任务中得到了显著的性能提升。