使用双向匹配进行目标排序的视觉推理

ACLApr, 2018

使用双向匹配进行目标排序的视觉推理

Object Ordering with Bidirectional Matchings for Visual Reasoning

Hao Tan, Mohit Bansal

TL;DR通过提出一种新的端到端神经模型，包括联合双向注意力机制和基于强化学习的指针网络等技术，本文在 Cornell NLVR 数据集的两种版本中取得了 4-6% 的绝对提升。

Abstract

visual reasoning with compositional natural language instructions, e.g., based on the newly-released Cornell Natural Language visual reasoning (NLVR) dataset, is a challenging task, where the model needs to have

visual reasoning compositional language nlvr dataset end-to-end neural model rl-based pointer network

发现论文，激发创造

自然语言引导下的视觉关系检测

本研究提出了一种自然语言引导的框架来解决视觉关系检测任务中对象对之间关系分类的问题，并使用双向循环神经网络以及语义连接来预测参与关系的对象之间的语义连接。该方法在 Visual Relationship Detection 和 Visual Genome 数据集上取得了最佳状态，特别是在未预测关系的情况下。

Nov, 2017

语言与视觉推理的跨模态相关性

本研究探讨了学习和推理语言和视觉数据的挑战，并设计了一种新型跨模态相关模块，可用于学习各种输入模态的组件之间的相关表示，它比仅仅重新调整原始表示空间更具泛化性。我们的方法不仅模拟了文本实体和视觉实体之间的关联，还模拟了文本中实体关系和图像中对象关系之间的高阶关联。实验证明，我们的方法在两个不同的语言和视觉任务上展现出了竞争性能，并提高了 VQA 任务的训练效率。

May, 2020

视听模型何时以及为何表现为词袋模型，以及此问题的解决方案是什么？

通过创建 Attribution, Relation, and Order (ARO) 基准来系统性地 evaluated 视觉语言模型 (VLMs) encode 构成信息的能力，其中 ARO 包含 Visual Genome Attribution、Visual Genome Relation 和 COCO & Flickr30k-Order 等测试，并表明对比学习中 “hard negative mining” 的简单实现显著提高了理解顺序和组成性所需的任务的性能。

Oct, 2022

自然语言视觉推理

本论文提出了一个自然语言视觉推理的任务，通过图片和描述语句的配对，预测描述语句在给定场景中的真假。该任务涉及自然语言、机器人代理、语言输入、视觉推理以及合成图像等方面。

Oct, 2017

多模态视觉语言模型中的基于实体的视觉空间推理

利用大规模视觉语言模型评估其在不同视觉推理任务中的性能，特别是在理解空间关系方面的能力的研究。通过细粒度的组合性先验来解决空间关系推理任务的评估和排名，结合物体及其位置的核心语义来计算空间子句的最终评分，并比较不同视觉语言模型在空间关系推理方面的能力。

Aug, 2023

通过语义更丰富的指令来弥补 VLN 中的视觉差距

本文介绍了数据扩充方法以改善现有的人工智能模型在 VLN 任务中性能表现不佳的问题，该方法利用了 Matterport3D 数据集中的元数据信息来引导新的导航指令的生成，并在未见过的环境中使性能提高了 8%。

Oct, 2022

朝着真正无需零样本的组合视觉推理：以 LLMs 为程序员

通过引入空间和时间抽象例程以及利用少量标记示例自动生成上下文例子，我们提出了一个框架来消除人为构建的上下文例子，从而解决了可视推理中的一些问题并提升了性能。

Jan, 2024

视觉问答的弱监督相对空间推理

这篇研究报告探讨了视觉和语言推理需要对视觉概念、语义和语言基础以及两种模式之间的相互作用进行感知，并评估了现有的 Vision-and-language 模型对于空间理解的忠实度。研究者提出了两个目标，利用现成的深度估计器，设计了关于三维空间推理的代理任务来训练 Vision-and-language 模型，使得在视觉问答挑战中取得了显著的表现改善。

Sep, 2021

视觉空间推理

本研究提出 Visual Spatial Reasoning（VSR）数据集，这是包含超过 10k 已标注的英文自然文本图像对和 66 种空间关系的数据集，研究表明当前视觉语言模型只能达到约 70％的准确率，无法识别有关物体朝向的关系。

Apr, 2022

组合视觉推理基准测试

该论文介绍了一个新的视觉推理基准测试，Compositional Visual Relations (CVR)，以推动更加数据高效的学习算法的开发，并发现卷积神经网络比变压器架构在大多数数据方案上表现更好，但所有计算模型都比人类更不数据高效。

Jun, 2022