场景细化器:在图像中以形态水平为基础的主题定位
通过在图像环境中关联文字和短语到图像区域,本文提出了一个框架来共同研究任务表现和短语的关联,并提出了三个基准来研究二者之间的关系。我们的研究结果显示,现有模型在关联短语和解决任务方面存在不一致性。我们展示了如何通过对关联短语注释进行穷举式训练来解决这个问题,并分析了它所产生的动态性。
Sep, 2023
通过对具有意义的监督的视觉数据进行训练,我们发现在具有限定语言数据的情况下,视觉监督可以提高词汇学习的效率,但这种改进是有限的,并且当前的多模态建模方法未能有效利用视觉信息以构建更具人类特征的词汇表示。
Oct, 2023
对于基于语言模型目标在大规模纯文本数据上进行训练的几种机器学习模型,在许多自然语言理解和生成任务上取得了令人印象深刻的结果。然而,对于语义的许多方面,仅仅通过 “倾听收音机” 是无法学习到的。本文系统地回顾了视觉 + 语言领域中提出的多个任务和模型。利用维特根斯坦的 “语言游戏” 思想,将这些任务分为 3 个不同的类别:1)区分性游戏,2)生成性游戏,和 3)交互式游戏。我们的文献分析提供了证据,表明未来的工作应该专注于重要的交互式游戏,在其中自然语言的交流对于解决关于物体指称和行动计划的不确定性是必要的,而物理体现则是理解场景和事件语义的重要条件。作为总体,这些是发展基于神经模型的扎根意义的关键要求。
Dec, 2023
本篇研究介绍了一种基于视觉语言理解模型的单词语义组合来生成复杂指代表达式的理论,介绍了其在空间指代表达式中的应用及在语义理解中对视觉语境的影响研究。
Jun, 2011
介绍了一项新的任务和数据集 Winoground,用于评估视觉和语言模型进行视觉 - 语言组成推理的能力,展示了目前最先进的视觉和语言模型在该任务上表现不尽如人意的情况,并探讨如何改进模型的方法。
Apr, 2022
本文研究比较基于视觉和语言的预训练模型和仅基于文本的预训练模型的语义表示,结果发现基于视觉和语言的模型在仅语言方面无法显著优于仅基于文本的模型,因此这种多模态预训练对于提高自然语言处理的效果仍需要进一步研究。
Sep, 2021
通过对话互动生成确切描述来增强视觉引导对话中视觉语言模型(VLMs)的话语处理能力,并使用预训练的 VLMs 在零样本情况下识别参照物,从而提高了参照的准确性和效果。
Sep, 2023
Vision and Language Models (VLMs) have remarkable zero-shot performance, but struggle with compositional scene understanding and linguistic phrase grounding. This paper introduces novel quantitative metrics using GradCAM activations to evaluate pre-trained VLMs' grounding capabilities and measure their uncertainty, revealing tradeoffs between model size, dataset size, and performance.
Apr, 2024