机器人的交互式视觉任务学习

AAAIDec, 2023

Interactive Visual Task Learning for Robots

Weiwei Gu, Anant Sah, Nakul Gopalan

TL;DR我们提出了一个框架，使机器人能够通过与人类用户进行当场语言交互来学习新的视觉概念和任务。通过在概念层次结构中给予新概念的父节点增加信息传播，我们提出了一种新方法 Hi-Viscont，该方法允许学习视觉概念层次结构的方法学习新的概念并解决未见过的机器人任务。我们还将视觉任务表示为带有语言注释的场景图，从而使我们能够零样例实时创建任务的新排列组合。通过与基线模型比较 Hi-Viscont 在视觉问答中的表现，我们得出一系列结果。在叶节点概念上，Hi-Viscont 与基线模型具备可比性，但在非叶节点概念上平均提高了超过 9%。对比基线模型，我们的框架在成功率、物体级准确率上分别提高了 33% 和 19%，从而证明了我们的模型在机器人的持续学习环境中学习任务和概念的能力。

Abstract

We present a framework for robots to learn novel visual concepts and tasks via in-situ linguistic interactions with human users. Previous approaches have either used large pre-trained visual models to infer novel objects zero-shot, or added novel concepts along with their attributes an

robotics tasks visual concept hierarchies hi-viscont novel concepts continual learning setting

发现论文，激发创造

通过会话游戏进行一次性视觉概念学习实现交互式语言获取

本文提出一种集成模仿学习和强化学习的方法，通过交互式对话游戏实现基于场景的语言学习，使得智能代理能够主动提问新事物并在一次对话中将新知识应用于实践。实验结果证实了该方法的有效性。

Apr, 2018

FALCON：通过整合图像、语言描述和概念相关性快速进行视觉概念学习

该文提出了一种元学习框架，通过同时观察图片、阅读描述场景中对象的句子和解释补充句子等多个自然出现的数据流来快速学习新的视觉概念，支持问答等应用，其模型命名为 FALCON，使用方框嵌入空间表示视觉概念，包括颜色和形状，并利用关系推理技术推理出未知视觉概念的最优方框嵌入。

Mar, 2022

复合视觉运动任务的一次性分层模仿学习

我们研究了从单个人类表演视频中学习多阶段基于视觉的任务，同时利用不同对象的子任务演示数据，学习如何从原始像素中学习基本行为并动态组合这些行为以执行多阶段任务的方法。

Oct, 2018

层次化视觉语言表示的多任务学习

该研究提出了一种多任务学习的方法，将来自各种不同数据集的任务共享视觉语言表示。结果表明该方法在图像字幕检索、视觉问答和视觉定位方面比先前的单任务学习方法表现更好，同时通过可视化注意力图分析了学习到的分层表示。

Dec, 2018

超越模仿：通过学习概念作为认知程序，在机器人上实现零样本任务转移

本文通过引入类人概念学习框架和新型计算机架构，将认知心理学的有关概念转移到机器学习领域中，实现了具备可解释性及直观感知能力的机器人。该认知计算机通过视觉感知系统、即时记忆和运动控制系统，实现一个命令集合，以学习新概念，并可将其应用于不同形势的物理世界中。

Dec, 2018

像孩子一样学习：从图像的句子描述中快速学习新视觉概念

本文提出一种使用语言和视觉特征学习新视觉概念及其与其他概念的交互的方法，其中利用转置权重共享方案改进图像字幕模块，以有效避免过拟合新概念。同时构建了三个新颖概念数据集进行实验验证。

Apr, 2015

交互式机器人操作的混合组合推理方法

本文介绍了一种神经符号 (混合) 组合推理模型，以将语言引导的视觉推理与机器人操作相结合。该模型通过使用共享的原始技能库以任务非特定的方式处理所有情况。通过语言解析器将输入查询映射为由这些原语组成的可执行程序取决于上下文。结果表明，该方法达到了非常高的准确性，同时可以进行少量的视觉微调，从而实现了真实场景的可转移性。

Oct, 2022

基于视觉记忆的机器人有趣度无监督在线学习

提出了一种基于在线学习的方法，该方法使用翻译不变的视觉记忆和三阶段架构以实现对环境的快速适应并在机器人探索方案中实现与监督方法相当的性能，预计在机器人探索任务中发挥重要作用。

Nov, 2021

基于辅助人工智能消除歧义的视觉定位实现虚实转移

本研究介绍了一种基于模块化方法的场景感知机器人视觉定位框架，该方法通过训练每个模块来独立解析实体、属性和空间关系，并结合领域自适应技术解决常见问题。实验表明，该框架与 Sim-To-Real 实现的视觉识别方法相结合，能够提供一种数据高效、稳健且易于理解的视觉定位机器人方案。

May, 2022

RelViT: 用于视觉关系推理的概念引导视觉 Transformer

本文利用视觉转换器 (ViTs) 作为我们视觉推理的基本模型，通过优化定义为物体实体及其关系概念，推动 ViTs 的推理能力，并介绍了一种新的概念特征字典，以促进全局关系推理和促进语义对象特定一一对应关系学习的局部任务。结果显示，我们的模型 Concept-guided Vision Transformer（或 RelViT）在 HICO 和 GQA 上的性能均优于先前的方法，并充分考虑了 ViT 变体和超参数的稳健性。

Apr, 2022