Mar, 2022

规划目标,学习技能:通过分离的策略优化实现可迁移的状态-仅模仿学习

TL;DR本論文提出了一种名为DePO(Decoupled Policy Optimization)的方法,該方法將策略分解為高層次的狀態規劃器和反動力學模型,并利用嵌入式的解耦策略梯度方法和对抗式训练对其进行优化,此方法能够在不同的操作空间或状态转移动态下实现知识传输,且可以将规划器泛化到演示区域之外的状态区域,达到学习泛化的目的。最后的实验结果表明,本文提出的DePO方法能够在不失精度的情况下,加强知识的传输性和泛化性,能够有效地学习泛化的目标状态规划器。