AAAIDec, 2023

机器人的交互式视觉任务学习

TL;DR我们提出了一个框架,使机器人能够通过与人类用户进行当场语言交互来学习新的视觉概念和任务。通过在概念层次结构中给予新概念的父节点增加信息传播,我们提出了一种新方法 Hi-Viscont,该方法允许学习视觉概念层次结构的方法学习新的概念并解决未见过的机器人任务。我们还将视觉任务表示为带有语言注释的场景图,从而使我们能够零样例实时创建任务的新排列组合。通过与基线模型比较 Hi-Viscont 在视觉问答中的表现,我们得出一系列结果。在叶节点概念上,Hi-Viscont 与基线模型具备可比性,但在非叶节点概念上平均提高了超过 9%。对比基线模型,我们的框架在成功率、物体级准确率上分别提高了 33% 和 19%,从而证明了我们的模型在机器人的持续学习环境中学习任务和概念的能力。