May, 2024

最大熵奖罚强化学习

TL;DR我们介绍了 “soft Deep MaxPain”(softDMP)算法,将长期策略熵的优化整合到奖惩强化学习目标中,旨在提高样本效率和鲁棒性,并解决了前一篇 Deep MaxPain 方法中的两个问题,通过实证研究在两种离散马尔可夫决策过程环境中探索了 DMP 方法的关键进展,以及平滑学习算子在 “翻转” 技巧中的作用。对于第二个问题,我们提出了基于疼痛寻求子策略和目标达到子策略之和比例的概率分类器,用于单独更新奖励和惩罚动作值函数的回放缓冲区,我们的框架在 ROS Gazebo 模拟下的 Turtlebot 3 迷宫导航任务中展示了优越的性能。