RIO: 开放环境中推理意图导向对象的基准
本篇论文研究了通过导航和空间推理任务共同推理语言和视觉的问题,介绍了Touchdown任务和数据集,通过真实的城市环境中的导航指令和自然语言来寻找隐藏在目标位置的物体。数据集包含9,326个英文指令和空间描述的示例,经验性分析表明,数据对现有方法提出了开放性的挑战,定性的语言分析表明,与相关资源相比,数据利用了更丰富的空间推理。
Nov, 2018
该研究旨在通过目标-中心的组合式注意力模型(OCCAM)和符号概念空间,从与图像相关的问题-答案对中识别概念和它们的分层关系,并实现一个可解释的模型。该模型通过设计新的OCCAM框架执行视觉推理任务,并提出一种方法,从对象的视觉特征和问题词之间的注意力模式中使用线索,诱导对象和关系的概念。结果表明,OCCAM在无需人类注释的功能程序的情况下取得了最新的技术水平,并且所诱导的概念精确而充足,在视觉特征或在引入的符号概念空间中表示的对象上都能够取得相当的性能。
Nov, 2020
本文提出了基于任务驱动的物体检测方法,通过探索基本意义而非物体类别来提取关键属性,并使用多级思维链激励法从大规模语言模型中提取与任务、物体示例和关键视觉属性相关的知识。进一步,我们提出了一种知识条件检测框架CoTDet,有效利用知识来增强物体识别和定位,并得到支持物体检测的合理解释。实验证明,我们的CoTDet方法在性能上显著优于当前最先进的方法(提升15.6个方框AP值和14.8个掩膜AP值)。
Sep, 2023
通过自动化处理网络数据生成一组数据集,其中包括了有和没有对象的图像,并使用该数据集构建了一个名为CLIP-UNet的SP预测模型,该模型在真实和模拟图像上超过了现有的视觉语义模型和基线,并证明了其在室内环境中构建整洁机器人等下游应用的潜力。
Jan, 2024
提出了一种利用Large Language Models(LLMs)来改善基于任务规划中推理能力的经典规划算法固有限制的系统AutoGPT+P,该系统结合了基于行动能力的场景表示和规划系统,并能够在自然语言中为用户指定的任务推导和执行计划。
Feb, 2024
我们提出了一项新的面向人类意图解释的视觉引导任务(IVG),并构建了一个最大规模的自由形式意图表达的IVG数据集IntentionVG,通过大量实验验证了我们方法在视觉语言领域的必要性和实用性。
Feb, 2024
VEglue是一种用于VE系统测试的基于对象对齐的联合擦除方法,它能检测出平均11609个问题,比基线方法高出194%-2846%,并在平均下降17.1%-38.2%的情况下,显著提高模型性能(准确率增加了50.8%)。
Mar, 2024
基于自然语言指令的机会理解是本文的主题,通过WorldAfford框架中的创新性的机会推理链思维提示,使用SAM和CLIP定位与机会知识相关的对象,通过机会区域本地化模块确定对象的机会区域,在LLMaFF数据集上验证该框架表现出领先的状态,在多个物体上定位机会区域并在环境中无法完全匹配给定指令时提供替代方案。
May, 2024
通过人的意图进行3D物体检测是一项新的任务,依赖于人们观察场景、推理目标并提供指示给AI系统,本研究提出了基于人的意图的3D目标检测方法IntentNet,并建立了Intent3D数据集作为验证基准。
May, 2024
本研究解决了当前视觉语言模型在定量空间推理方面的不足,尤其是关于物体大小和距离的推理能力。通过引入一个手动注释的基准Q-Spatial Bench,研究发现某些视觉语言模型在有参考对象的情况下能显著提升推理成功率,并开发了一个名为SpatialPrompt的零样本提示技术,进一步提高了模型的定量空间推理性能,无需额外的数据或模型调整。
Sep, 2024