场景细化器：在图像中以形态水平为基础的主题定位

Sep, 2023

场景细化器：在图像中以形态水平为基础的主题定位

The Scenario Refiner: Grounding subjects in images at the morphological level

Claudia Tagliaferri, Sofia Axioti, Albert Gatt, Denis Paperno

TL;DR通过对相关词汇、视觉和语言模型、形态学层面、人机模型不匹配以及微妙的语言特征的研究，该论文揭示了视觉和语言模型在捕捉形态学差异时存在的差异和模型的语法倾向。该研究方法不仅可以拓展到其他细微语言特征的测试，还可以进一步提取准确的关键词。

Abstract

derivationally related words, such as "runner" and "running", exhibit semantic differences which also elicit different visual scenarios. In this paper, we ask whether Vision and Language (V\&L) models capture such distinctions at the →

derivationally related words vision and language models morphological level human-model misalignment nuanced language features

发现论文，激发创造

视觉和语言模型中短语定位和任务表现的联合研究

通过在图像环境中关联文字和短语到图像区域，本文提出了一个框架来共同研究任务表现和短语的关联，并提出了三个基准来研究二者之间的关系。我们的研究结果显示，现有模型在关联短语和解决任务方面存在不一致性。我们展示了如何通过对关联短语注释进行穷举式训练来解决这个问题，并分析了它所产生的动态性。

Sep, 2023

视觉基准帮助在低数据环境中学习词义

通过对具有意义的监督的视觉数据进行训练，我们发现在具有限定语言数据的情况下，视觉监督可以提高词汇学习的效率，但这种改进是有限的，并且当前的多模态建模方法未能有效利用视觉信息以构建更具人类特征的词汇表示。

Oct, 2023

视觉引导语言学习：语言游戏，数据集，任务和模型综述

对于基于语言模型目标在大规模纯文本数据上进行训练的几种机器学习模型，在许多自然语言理解和生成任务上取得了令人印象深刻的结果。然而，对于语义的许多方面，仅仅通过 “倾听收音机” 是无法学习到的。本文系统地回顾了视觉 + 语言领域中提出的多个任务和模型。利用维特根斯坦的 “语言游戏” 思想，将这些任务分为 3 个不同的类别：1）区分性游戏，2）生成性游戏，和 3）交互式游戏。我们的文献分析提供了证据，表明未来的工作应该专注于重要的交互式游戏，在其中自然语言的交流对于解决关于物体指称和行动计划的不确定性是必要的，而物理体现则是理解场景和事件语义的重要条件。作为总体，这些是发展基于神经模型的扎根意义的关键要求。

Dec, 2023

话语不够，次序至关重要：关于视觉指称表达的鲁棒性

该论文研究了视觉指代表达识别这一挑战性任务，发现现有方法未能充分利用语言结构，提出了两种增强其健壮性的方法，并提供了数据集以供使用。

May, 2020

词典级对比性视觉引导改进语言建模

基于视觉监督的语言学习过程，通过提供词汇信息的早期层表示，兼容多模态的人类语言习得方式，实现了在语言模型中融入视觉基础的潜力。

Mar, 2024

视觉场景的基于语义 grounded 语义构成

本篇研究介绍了一种基于视觉语言理解模型的单词语义组合来生成复杂指代表达式的理论，介绍了其在空间指代表达式中的应用及在语义理解中对视觉语境的影响研究。

Jun, 2011

Winoground: 探究视觉和语言模型的视觉语言组成性

介绍了一项新的任务和数据集 Winoground，用于评估视觉和语言模型进行视觉 - 语言组成推理的能力，展示了目前最先进的视觉和语言模型在该任务上表现不尽如人意的情况，并探讨如何改进模型的方法。

Apr, 2022

视觉语言预训练是否提高了词汇连接能力？

本文研究比较基于视觉和语言的预训练模型和仅基于文本的预训练模型的语义表示，结果发现基于视觉和语言的模型在仅语言方面无法显著优于仅基于文本的模型，因此这种多模态预训练对于提高自然语言处理的效果仍需要进一步研究。

Sep, 2021

通过文本生成解决视觉驱动对话中的引用

通过对话互动生成确切描述来增强视觉引导对话中视觉语言模型（VLMs）的话语处理能力，并使用预训练的 VLMs 在零样本情况下识别参照物，从而提高了参照的准确性和效果。

Sep, 2023

Q-GroundCAM: 通过 GradCAM 度量视觉语言模型中的基准化能力

Vision and Language Models (VLMs) have remarkable zero-shot performance, but struggle with compositional scene understanding and linguistic phrase grounding. This paper introduces novel quantitative metrics using GradCAM activations to evaluate pre-trained VLMs' grounding capabilities and measure their uncertainty, revealing tradeoffs between model size, dataset size, and performance.

Apr, 2024