Feb, 2023

用无监督技能发现进行分层学习,用于高速公路合并应用

TL;DR本研究提出了一种层次学习方法,该方法使用未经预设奖励功能的无监督技能发现获取运动原语作为动作,可减少基于惩罚奖励机制的强化学习方法的总训练时间,该方法通过模拟实验表明其产生的驾驶员模型能够更快地展现高性能。