Apr, 2024

利用次优数据进行人类介入强化学习

TL;DR通过使用零奖励的次优数据进行预训练,SDP 方法改进了人机协同强化学习(HitL RL)算法,从而在九个机器人操作和运动任务中显著提高了性能。