Dec, 2021

确定性判别式模仿(D2-模仿): 重新审视对抗模仿以提高样本效率

TL;DR本文提出了一种无需使用对抗训练或最大最小优化的离线策略样本高效方法D2-Imitation,利用TD学习和确定性策略简化了学习过程,经实验验证在许多控制任务中比对抗性模仿的离线策略扩展方法更加高效。