Apr, 2023

从人的偏好学习通用人类先验知识,用于灵巧操纵

TL;DR使用直接的人类反馈通过视频来学习通用的人类先验,实现 20 种双手机器人操作任务中 RL 策略的高效调整,不需要进行人类演示,任务无关的奖励模型通过生成多样化策略并收集人类偏好进行训练。本方法在各种任务中表现出更接近人类行为的结果,甚至适用于未见过的任务,证明了其泛化能力。