Jun, 2022

基于模型和策略熵正则化的基于模型仿真学习

TL;DR使用基于生成对抗神经网络的方法进行模仿学习具有许多优点,但是由于使用了无模型强化学习算法,需要与实际环境进行大量交互来训练生成器。为此,提出了基于模型的熵正则化模仿学习算法(MB-ERIL),通过基于熵正则化马尔可夫决策过程,减少与实际环境的交互次数。MB-ERIL使用了两个判别器,通过结构化判别器,MB-ERIL的学习效率得到了提高。计算机模拟和真实机器人实验表明,与基线方法相比,MB-ERIL取得了具有竞争力的性能,并显着提高了样本效率。