利用弱监督进行预处理的视觉语言推理

May, 2023

利用弱监督进行预处理的视觉语言推理

Preconditioned Visual Language Inference with Weak Supervision

Ehsan Qasemi, Amani R. Maina-Kilaas, Devadutta Dash, Khalid Alsaggaf, Muhao Chen

TL;DR本文提出了预先条件的视觉语言推理与理性化（PVLIR）的任务，研究表明 SOTA 的 VLM 模型无法提取出这种先决条件，提出了三种策略来提取弱监督信号，并开发了经过人工验证的测试集进行评估。

Abstract

Humans can infer the affordance of objects by extracting related contextual preconditions for each scenario. For example, upon seeing an image of a broken cup, we can infer that this precondition prevents the cup from being used for drinking. Reasoning with preconditions of commonsense

affordance contextual preconditions commonsense reasoning visual language inference weak supervision signals

发现论文，激发创造

PInKS: 具有最小监督的预处理常识推理

本文提出了一种改进的、最小监督的预先条件常识推理模型 PInKS，它通过 PAC-Bayesian 信息分析、精度度量和消融研究等辅助手段，有效地解决了对预先条件推理数据稀缺及模型支持不足的问题，提高了关于常识知识先决条件推理的基准测试结果（高达 40% 宏 F1 分数）。

Jun, 2022

从指导手册中学习操作条件进行指令理解

本研究旨在通过分析在线指南手册的数据集以构建模型，研究当下 NLP 模型在指令文本中推断动作条件依赖性的效果，提出了弱监督方法用于自动构建大规模训练实例，在考虑整体指导上进行了改进，在采用了全局信息后， F1-score 的提高达到了 20％以上。

May, 2022

SimVLM：简单的弱监督视觉语言模型预训练

本文提出了一种简约的视觉语言模型（Simple Visual Language Model）普及方法，使用大规模的弱监督数据，通过单一前缀语言建模目标进行端到端训练，并在不利用额外数据或任务特定的定制的情况下，在广泛的辨别和生成性视觉语言基准方面实现了具有新的最先进的结果，还展示了 SimVLM 获得了强大的泛化和转移能力，实现了零 - shot 行为。

Aug, 2021

VILA：关于视觉语言模型的预训练

通过逐步可控的比较，我们研究了增强大语言模型 (LLM) 向视觉语言模型 (VLM) 扩展的 VLM 预训练过程的设计选择。我们通过增强的预训练方法构建了 VILA，一系列视觉语言模型，无需额外的修饰即可在主要基准测试中始终优于当前最先进的模型。多模态预训练还有助于揭示 VILA 的吸引人属性，包括多图像推理、增强的上下文学习和更好的世界知识。

Dec, 2023

视觉语言模型是否能够成为良好猜测器？探索 VLM 的时间和位置推理能力

本文通过引入 WikiTiLo 数据集，并实施两阶段的识别和推理探测任务，研究基于大规模图像 - 文本资源预训练的视觉语言模型是否能够像人类一样通过视觉线索推断图像的时间和地点，并发现 VLMs 虽然能够有效地保留视觉编码器中的相关特征，但仍然无法进行完美的推理。

Jul, 2023

智能视觉演绎推理有多远？

近期，Vision-Language Models (VLMs) 取得了惊人的进展，但在基于视觉的演绎推理方面仍存在尚未发现的局限性。采用 Raven's Progressive Matrices (RPMs) 测试了几种热门的 VLMs 的能力，结果表明，虽然 VLMs 在文本推理方面表现出色，但在视觉演绎推理方面还有很大提升空间。详细分析揭示出 VLMs 在解决这些任务时主要困难在于无法感知和理解 RPM 示例中的多个、混淆的抽象模式。

Mar, 2024

分析基于视觉条件的语言模型的设计空间：棱镜式 VLMs

通过一系列标准化评估和深入研究，提供了视觉相关语言模型 (VLMs) 的能力和设计决策，包括图像预处理、架构和优化等方面的细致洞察。

Feb, 2024

视觉增强语言建模

提出了一种名为 VaLM 的预训练框架，对语言建模进行视觉增强，通过图像检索模块检索相应图像，使用视觉知识融合层使多模态语言建模可以参考文本和图像的视觉知识，并在需要的情况下获取相关联的图片，通过对各种视觉知识密集型的常识推理任务的评估，展示了 VaLM 在推理对象的常识，包括颜色、大小和形状方面的性能优于强语言和视觉语言基线。

May, 2022

利用视觉可供性在非结构化数据上进行语言基础建设

本文提出了一种基于视觉语言感知模型的新方法，可以在真实世界中从非结构化、离线、无需重置的数据中高效地学习通用的、以语言为条件的机器人技能，实验表明该方法配合 LLMS 可以在真实世界中完成长期、多层次的任务，并比以往方法少使用一个数量级的数据。

Oct, 2022

视觉问答的弱监督相对空间推理

这篇研究报告探讨了视觉和语言推理需要对视觉概念、语义和语言基础以及两种模式之间的相互作用进行感知，并评估了现有的 Vision-and-language 模型对于空间理解的忠实度。研究者提出了两个目标，利用现成的深度估计器，设计了关于三维空间推理的代理任务来训练 Vision-and-language 模型，使得在视觉问答挑战中取得了显著的表现改善。

Sep, 2021