Oct, 2023

融合模仿学习和强化学习以实现鲁棒的策略改进

TL;DR该研究通过融合强化学习和模仿学习的方法,利用自适应的策略选择和梯度优化算法,在稀疏奖励场景下有效提高样本效率,并在多个基准领域中展现出卓越的性能。