Feb, 2024

基于模型的方法提高强化学习效率:借助专家观察

TL;DR该研究通过采用专家观察(不涉及具体专家行为信息)来改进深度强化学习模型的样本效率,并通过提出一种自动调整增强损失函数中各组成部分权重的算法,证明了该算法在多种连续控制任务中通过有效利用可用的专家观察优于其他基准模型。