本研究介绍了一种基于模块化方法的场景感知机器人视觉定位框架,该方法通过训练每个模块来独立解析实体、属性和空间关系,并结合领域自适应技术解决常见问题。实验表明,该框架与 Sim-To-Real 实现的视觉识别方法相结合,能够提供一种数据高效、稳健且易于理解的视觉定位机器人方案。
May, 2022
本文介绍了利用自然语言任务进行协作的实体代理模型,发展出了可扩展的数据收集工具,并采集了互动立足语言理解的第一个数据集,以便进一步研究机器模拟人类智能适应新任务与环境的能力。
Nov, 2022
我们提出了一项新的面向人类意图解释的视觉引导任务(IVG),并构建了一个最大规模的自由形式意图表达的 IVG 数据集 IntentionVG,通过大量实验验证了我们方法在视觉语言领域的必要性和实用性。
Feb, 2024
本文提出了一种制作模糊图像数据集的方法,并使用此数据集评估现有视觉事件分类模型。实验结果表明,现有的视觉模型无法针对模糊图像提供有意义的输出,因此需要更多类似模糊图像数据集的创造和模型的研究。
Oct, 2022
本文介绍了 INGRESS,它是一个机器人系统,能够按照自然语言指示拾取和放置日常物品,并使用神经网络模型的两个阶段来进行对象引用和消岐。
Jun, 2018
本文介绍了一个交互式培训方法,以改进自然语言对话系统的视觉基础任务。培训过程中,共同的奖励函数引导着两个代理逐渐适应并合作完成任务,同时,该参数化奖励函数更新自身使训练效果得到了明显提高。虽然我们在训练过程中观察到了语言漂移问题,但我们提出使用奖励工程来提高生成对话的可解释性。此外,该研究结果表明评估目标为视觉对话任务时,需要比任务成功率更有语义相关性的评估标准。
Dec, 2017
通过利用注视信息澄清有歧义的问题,我们提出了以注视为基础的视觉问题回答数据集 (GazeVQA),并提出了一种利用注视目标估计结果提高 GazeVQA 任务准确性的方法。实验结果显示该方法在某些情况下提高了 VQA 系统在 GazeVQA 上的表现,并识别了需要改进的 GazeVQA 任务的一些典型问题。
Mar, 2024
本文介绍了一种基于场景图和语言结构的递增式 grounding 模型 (IGSG),通过使用场景图中的对象之间的关系,构造问答对话方式以消除人类命令的歧义和错误,该模型在现实场景中表现出可接受的性能,可以有效地通过回问式问答消除歧义的问题。
Jan, 2022
我们构建了一个名为 InfoVisDial 的视觉对话数据集,通过将大规模多模态模型(如 GIT)和语言模型(如 GPT-3)进行有效的数据收集,利用可生成信息丰富的对话,最后通过人工筛选生成的对话来证明其覆盖了信息丰富且多样化的对话主题,为视觉对话任务提供了一个强有力的基线。
Dec, 2023
本文提出了一个包含自然语言描述复杂机器人任务的数据集,以期提高机器人与人类之间的互动能力,在使用多个现实图像中的可见物体来回应多方面的指令方面进行各种复杂任务的能力是解决这一挑战的关键。我们测试了多种最先进的视觉和语言导航,以及指涉表达模型来验证这项新任务的难度,但他们中没有一个显示出有希望的结果。我们还提出了一种新颖的交互式导航 - 指针模型,为该任务提供了强有力的基线。该模型在未见测试集上表现最佳,但与人类表现相比仍有很大的改进空间。
Apr, 2019