使用视觉表示探究上下文语言模型的共同基础

May, 2020

使用视觉表示探究上下文语言模型的共同基础

Probing Text Models for Common Ground with Visual Representations

Gabriel Ilharco, Rowan Zellers, Ali Farhadi, Hannaneh Hajishirzi

TL;DR本文通过设计一种探针模型，研究了上下文语言模型对应的具体名词在视觉表示方面的关联程度，并发现语言表示本身就具有检索正确对象类别的强信号以及检索图像特定实例的效果，而文本上下文在该过程中发挥了重要作用,但比起人类，具有图像为基础的语言模型在实例检索方面表现稍逊。我们希望这些结果能够启发未来的研究，进一步地理解和改善语言模型的视觉能力。

Abstract

Vision, as a central component of human perception, plays a fundamental role in shaping natural language. To better understand how text models are connected to our visual perceptions, we propose a method for examining the similarities between neural representations extracted from words in text and objects in images. Our approach uses a lightweight

发现论文，激发创造

在基于图像场景环境的语义空间中融合视觉语义到句子表示中

本文目的在于通过学习一种中间的representation space将视觉信息转移到文本表示中，以解决由于一个视觉场景可以有多种描述方式所导致的文字表示和学习中的问题，作者还提出了两个新的目标，来保证相关元素之间的相似性跨领域地保持和提高分类和语义相关性任务的性能。

Feb, 2020

使用带噪文本监督扩展视觉和视觉语言表示学习

本文利用包含超过10亿个图像备选文本对的嘈杂数据集，采用简单的双编码器体系结构通过对比损失，学习了图像和文本对的视觉和语言表示，显示出我们语料库的规模可以弥补其噪音，即使使用这样的简单学习方案也能实现最先进的表现，使跨模式搜索变得更加容易。

Feb, 2021

探究多模态嵌入在语言属性中的应用：视觉-语义案例

本篇论文提出了一种探测任务的方法，通过训练分类器来比较各种最新的文本-图像语义嵌入，揭示了语义嵌入中存在的问题并提出了问题解决方案。实验结果表明，视觉-语义嵌入的识别准确率比单媒体嵌入提高了12%以上。

Feb, 2021

看见优势：通过视觉衍生词嵌入更好地捕捉人类的语义知识

本文旨在利用图像丰富文本语义模型，以更好地捕捉词汇意义的认知方面，并通过大型启动实验展示在视觉基础词嵌入中添加视觉信息的预测性能更好，其中与人类单词相似性的相关性也更高，并展示了视觉基础嵌入可以捕捉到仅使用纯文本不能提取的信息。

Feb, 2022

语言与视觉：基于场景的词语和句子嵌入研究

本研究提出了一种简单且非常有效的预训练词嵌入视觉对齐方法，使得即使对于抽象词，我们也能生成受视觉基础支撑的嵌入，并且在一系列的单词相似性基准测试中证明了视觉基础支撑不仅有益于具体词，还有益于抽象词。

Jun, 2022

抽象和具体词汇的视觉定位: 对Günther等人(2020)的回应

本文探讨语言与视觉的互动方式对视觉基础单词嵌入的影响，并使用 Günther 等人(2020)的行为实验说明了基于视觉图像建模的嵌入模型在人类的行为表现上更佳。同时发现抽象概念从视觉连接的角度受到视觉基础单词的间接影响。

Jun, 2022

利用文本为视觉表示建立通用领域基础

本文提出了一种基于自然语言监督的跨模态领域泛化方法，利用视觉和文本交互的表征来实现高级别类别判别的信息融合，并使用可解释的模型来生成解释，从而提高模型的泛化能力和性能。作者的方法在多个数据集上均取得了最新领先的结果。

Jul, 2022

从图像空间线性映射到文本空间

该研究探讨了文本型的语言模型对外部世界的表示程度。研究发现，通过单一的线性变换，可以将视觉模型的特征表示连续地传递给被固定的文本型语言模型，从而取得了与同时调整图像和文本的模型相同的指标。研究表明，语言模型的概念表示与以图像为基础的模型在结构上相似，甚至能够转移视觉信息。

Sep, 2022

视觉基准帮助在低数据环境中学习词义

通过对具有意义的监督的视觉数据进行训练，我们发现在具有限定语言数据的情况下，视觉监督可以提高词汇学习的效率，但这种改进是有限的，并且当前的多模态建模方法未能有效利用视觉信息以构建更具人类特征的词汇表示。

Oct, 2023

像素句子表示学习

通过视觉表征学习方法及无监督学习，我们提出了一种对文本进行语义学习的框架，借鉴认知科学和语言学的概念，利用错别字和词序混排等方法进行文本扰动，实现对文本的连续感知，并通过大规模无监督主题对齐训练和自然语言推理监督，达到与现有自然语言处理方法相当的语义文本相似度性能，展示了方法的跨语言迁移能力和语言迭代训练中的独特突破模式。

Feb, 2024