Dec, 2022

使用策略和奖励塑形的无人机控制强化学习

TL;DR本研究采用奖赏塑形和策略塑形技术同时训练 RL 智能体,以控制无人机;结果表明,与仅使用基于策略的方法训练智能体相比,使用两种技术同时训练的智能体获得了较低的回报,但训练期间达到了更低的执行时间和更少的离散度。