Oct, 2023

你在意什么?致力于机器人学习的视觉表征对齐

TL;DR通过人类反馈,提出了一种用于解决视觉表征对齐问题和视觉奖励学习问题的方法:表示对齐的基于偏好的学习(RAPL)。在 X-MAGICAL 和机器人操纵的实验中,RAPL 的奖励 consistently 生成高样本效率的优选机器人行为,并在视觉表征来自与机器人不同的实体的情况下显示出强大的零样本泛化能力。