CLEVR-Ref+: 通过指称表达式诊断视觉推理
通过建立人工智能系统,以便对视觉数据进行推理和回答问题,我们需要有诊断测试来分析进展并发现缺点。该研究提出了一种诊断数据集,测试了各种视觉推理能力,包含最小的偏差并具有详细注释,描述每个问题需要的推理类型,用于分析各种现代视觉推理系统,提供了新的洞见,以及它们的能力和限制。
Dec, 2016
本文通过对指称表达识别最先进系统的经验分析来探究这些系统处理语言和视觉的方式,并发现这些系统可能忽略语言结构,依赖于数据选择和注释过程中引入的浅层相关性。
May, 2018
本文探讨了语言驱动的视觉推理的问题,提出了一种动态图注意力网络来执行多步推理,并针对复杂的语言表达能力生成可解释的视觉证据。实验结果表明,所提出的方法不仅可以显着超过三个常见基准数据集上的所有现有最新算法,而且还能生成可解释的视觉证据来逐步地定位所描述的物体。
Sep, 2019
本研究提出一种新的场景下基于规约表达理解的视觉推理数据集,其中使用可灵活组合丰富的视觉属性和多种推理逻辑的新颖表达式引擎生成表达式,并添加额外干扰图像以实现更深层次的视觉推理分析,评估了多种最新的规约表达理解模型,但发现没有一种能够达到良好的表现,提出的模块化较难样本挖掘策略效果最佳,但仍有改进的空间。
Mar, 2020
本研究提出了基于场景图的模块化网络(SGMN)来解决指代表达式的 grounding 问题,并且设计出了一个大规模实验数据集Ref-Reasoning,证明了该方法在这个数据集上的优越性。
Apr, 2020
本文介绍了一个新的REF数据集KB-ref,其中包含了对16K个图像中43K个表达式的答案,至少需要一段常识知识。此外,介绍了一种ECIFA网络,可以从相关的图像区域和常识知识事实中提取信息。该方法显著提高了SoTA REF模型的性能,但仍与人类表现之间存在差距。
Jun, 2020
本文调查了现代方法解决自然语言与计算机视觉领域中的指代表达理解问题,包括用于编码视觉和文本模态的机制,结构化图表示的模块化架构和基于图形的模型,以及针对小型数据集的结果,提出了复合指称表述理解方向的潜在未来研究方向。
Jul, 2020
本研究提出了一个基于交叉注意力变换器的无提案一阶段模型(PFOS),用于根据文本查询从图像中回归感兴趣区域,避免了之前方法所遇到的时间成本和超参数困境,并在四个参考表达数据集上取得了比以往方法更高效的最佳表现。
May, 2021
本文提出了一种名为语言自适应动态子网(LADS)的框架,可以从REC模型中提取依赖于表达式的语言自适应子网。通过使用紧凑的子网,推理可以更加经济高效,实验证明该方法可以在RefCOCO、RefCOCO +、RefCOCOg和Referit上提高推理速度和准确率。
Jun, 2023
该研究论文提出了一种名为ScanFormer的粗粒度到细粒度迭代感知框架,通过利用图像尺度金字塔从上到下提取与语言相关的视觉路径,排除与语言无关的冗余视觉区域以提高模型的效率,并在相关数据集上验证了该方法的准确性和效率的平衡。
Jun, 2024