Dec, 2022

稀疏奖励下的不匹配任务演示增强学习

TL;DR该论文提出了一种名为保守奖励塑造的学习方法,用于解决强化学习中的稀疏奖励问题,并在机器人操纵任务中实现了学习从演示中获取的技能以应用于其他相似但不同任务的能力。