Dec, 2023

深度强化学习自适应路径约束的探索策略

TL;DR提出了一种用于深度强化学习的高效适应性轨迹约束探索策略,利用不完整的离线演示作为参考,引入了一种新的基于策略梯度的优化算法,为单智能体和多智能体强化学习提供了一种自适应剪切轨迹距离奖励的方法。通过对两个大型二维网格世界迷宫和几个 MuJoCo 任务的实验验证,证明了该方法在实现时间延长的探索和避免短视和次优行为方面的显著优势。