InViG: 针对 500K 人机交互的交互式视觉锚定基准评估

Oct, 2023

InViG: 针对 500K 人机交互的交互式视觉锚定基准评估

InViG: Benchmarking Interactive Visual Grounding with 500K Human-Robot Interactions

Hanbo Zhang, Jie Xu, Yuchen Mo, Tao Kong

TL;DR大规模的互动视觉消除歧义和接地数据集通过开放性目标导向的消歧对话提供了针对人机交互中的歧义性行为的实用且具有挑战性的评测基准。

Abstract

ambiguity is ubiquitous in human communication. Previous approaches in human-robot interaction (HRI) have often relied on predefined interaction templates, leading to reduced performance in realistic and open-end

ambiguity human-robot interaction interactive visual grounding disambiguation dialogues end-to-end interactive visual disambiguation

发现论文，激发创造

基于辅助人工智能消除歧义的视觉定位实现虚实转移

本研究介绍了一种基于模块化方法的场景感知机器人视觉定位框架，该方法通过训练每个模块来独立解析实体、属性和空间关系，并结合领域自适应技术解决常见问题。实验表明，该框架与 Sim-To-Real 实现的视觉识别方法相结合，能够提供一种数据高效、稳健且易于理解的视觉定位机器人方案。

May, 2022

为基于理解语境的语言模型收集交互式多模态数据集

本文介绍了利用自然语言任务进行协作的实体代理模型，发展出了可扩展的数据收集工具，并采集了互动立足语言理解的第一个数据集，以便进一步研究机器模拟人类智能适应新任务与环境的能力。

Nov, 2022

超越字面描述：理解与定位与人类意图相一致的开放世界对象

我们提出了一项新的面向人类意图解释的视觉引导任务（IVG），并构建了一个最大规模的自由形式意图表达的 IVG 数据集 IntentionVG，通过大量实验验证了我们方法在视觉语言领域的必要性和实用性。

Feb, 2024

利用人类判断的歧义图像进行强化视觉事件分类

本文提出了一种制作模糊图像数据集的方法，并使用此数据集评估现有视觉事件分类模型。实验结果表明，现有的视觉模型无法针对模糊图像提供有意义的输出，因此需要更多类似模糊图像数据集的创造和模型的研究。

Oct, 2022

人机交互中基于交互式视觉引导还原表达式

本文介绍了 INGRESS，它是一个机器人系统，能够按照自然语言指示拾取和放置日常物品，并使用神经网络模型的两个阶段来进行对象引用和消岐。

Jun, 2018

自我对话交互式强化学习的物体定位

本文介绍了一个交互式培训方法，以改进自然语言对话系统的视觉基础任务。培训过程中，共同的奖励函数引导着两个代理逐渐适应并合作完成任务，同时，该参数化奖励函数更新自身使训练效果得到了明显提高。虽然我们在训练过程中观察到了语言漂移问题，但我们提出使用奖励工程来提高生成对话的可解释性。此外，该研究结果表明评估目标为视觉对话任务时，需要比任务成功率更有语义相关性的评估标准。

Dec, 2017

基于凝视的视觉问答数据集用于澄清模糊的日语问题

通过利用注视信息澄清有歧义的问题，我们提出了以注视为基础的视觉问题回答数据集 (GazeVQA)，并提出了一种利用注视目标估计结果提高 GazeVQA 任务准确性的方法。实验结果显示该方法在某些情况下提高了 VQA 系统在 GazeVQA 上的表现，并识别了需要改进的 GazeVQA 任务的一些典型问题。

Mar, 2024

使用场景图进行增量式目标定位

本文介绍了一种基于场景图和语言结构的递增式 grounding 模型 (IGSG)，通过使用场景图中的对象之间的关系，构造问答对话方式以消除人类命令的歧义和错误，该模型在现实场景中表现出可接受的性能，可以有效地通过回问式问答消除歧义的问题。

Jan, 2022

InfoVisDial: 大型多模态和语言模型的信息可视对话数据集

我们构建了一个名为 InfoVisDial 的视觉对话数据集，通过将大规模多模态模型（如 GIT）和语言模型（如 GPT-3）进行有效的数据收集，利用可生成信息丰富的对话，最后通过人工筛选生成的对话来证明其覆盖了信息丰富且多样化的对话主题，为视觉对话任务提供了一个强有力的基线。

Dec, 2023

REVERIE: 远程实体视觉室内指称表达

本文提出了一个包含自然语言描述复杂机器人任务的数据集，以期提高机器人与人类之间的互动能力，在使用多个现实图像中的可见物体来回应多方面的指令方面进行各种复杂任务的能力是解决这一挑战的关键。我们测试了多种最先进的视觉和语言导航，以及指涉表达模型来验证这项新任务的难度，但他们中没有一个显示出有希望的结果。我们还提出了一种新颖的交互式导航 - 指针模型，为该任务提供了强有力的基线。该模型在未见测试集上表现最佳，但与人类表现相比仍有很大的改进空间。

Apr, 2019