词典级对比性视觉引导改进语言建模

Mar, 2024

词典级对比性视觉引导改进语言建模

Lexicon-Level Contrastive Visual-Grounding Improves Language Modeling

Chengxu Zhuang, Evelina Fedorenko, Jacob Andreas

TL;DR基于视觉监督的语言学习过程，通过提供词汇信息的早期层表示，兼容多模态的人类语言习得方式，实现了在语言模型中融入视觉基础的潜力。

Abstract

Today's most accurate language models are trained on orders of magnitude more language data than human language learners receive - but with no supervision from other sensory modalities that play a crucial role in human learning. Can we make LMs' representations and predictions more acc

language models grounded language learning visual supervision lexical information multimodal nature

发现论文，激发创造

视觉基准帮助在低数据环境中学习词义

通过对具有意义的监督的视觉数据进行训练，我们发现在具有限定语言数据的情况下，视觉监督可以提高词汇学习的效率，但这种改进是有限的，并且当前的多模态建模方法未能有效利用视觉信息以构建更具人类特征的词汇表示。

Oct, 2023

像双语婴儿一样：视觉引导双语语言模型的优势

通过使用 MS-COCO-ES 数据集中的英语和西班牙语的图像和字幕来训练 LSTM 语言模型，研究发现视觉基础能够提高语义相似性的理解能力，特别是在跨语言时，但是在抽象词汇方面没有显著优势。研究还指出，为了进一步提高视觉基础的语言模型的实用性，需要更多多语言数据和多语言说话者的感知基础。

Oct, 2022

对比区域指导：在无需训练的视觉语言模型中改善定位

通过对视觉线索进行引导，使用对比区域引导（CRG）方法可以提高视觉 - 语言模型（VLMs）在多种视觉 - 语言任务上的性能，减少模型偏见，提高准确性。

Mar, 2024

视觉引导语言学习：语言游戏，数据集，任务和模型综述

对于基于语言模型目标在大规模纯文本数据上进行训练的几种机器学习模型，在许多自然语言理解和生成任务上取得了令人印象深刻的结果。然而，对于语义的许多方面，仅仅通过 “倾听收音机” 是无法学习到的。本文系统地回顾了视觉 + 语言领域中提出的多个任务和模型。利用维特根斯坦的 “语言游戏” 思想，将这些任务分为 3 个不同的类别：1）区分性游戏，2）生成性游戏，和 3）交互式游戏。我们的文献分析提供了证据，表明未来的工作应该专注于重要的交互式游戏，在其中自然语言的交流对于解决关于物体指称和行动计划的不确定性是必要的，而物理体现则是理解场景和事件语义的重要条件。作为总体，这些是发展基于神经模型的扎根意义的关键要求。

Dec, 2023

视觉基础复合 PCFG

本文将视觉与语言相结合用于语言理解，采用一种基于概率无上下文文法模型的 full-differentiable 端到端视觉理解模型，在 MSCOCO 测试标题上取得了新的最佳效果，证实了视觉基础在短语结构语法归纳中的有效性。

Sep, 2020

对比式视觉 - 语言对齐提高指示学习效率

通过将 Contrastive 和 Generative 方法应用于 ViT 和 LLM 的表示对齐，我们提出了 CG-VLM 模型，有效地实现了视觉 - 语言的对齐，成为一种高效的指令学习器。

Nov, 2023

基于语言规范的自然监督下的三维视觉植根

本论文提出了一种利用语言为约束的 Language-Regularized Concept Learner (LARC) 方法，通过从语言属性中提取约束，显著提高了自然监督环境下神经符号概念学习器的准确性，改进了之前工作在自然监督的 3D 视觉定位方面的性能，并展示了广泛的三维视觉推理能力，包括零样本组合、数据效率和可迁移性，为学习无密集监督环境的结构化视觉推理框架打下了有前景的基础。

Apr, 2024

学习跨模态上下文图进行视觉定位

本文提出了一种基于语言引导图表示的方法来捕获全局上下文和关系，以及跨模态图匹配策略来解决多短语视觉定位任务，实验证明我们的方法优于现有技术，并提供了开源代码。

Nov, 2019

通过视觉语言验证和迭代推理来改善视觉定位

本研究提出了一种基于 transformer 的视觉定位框架，通过建立文本条件的区分性特征和执行多阶段跨模态推理来实现精确的视觉定位，并提出了基于文本的视觉上下文信息编码器和多阶段解码器以实现最新的性能。

Apr, 2022

视觉语言预训练是否提高了词汇连接能力？

本文研究比较基于视觉和语言的预训练模型和仅基于文本的预训练模型的语义表示，结果发现基于视觉和语言的模型在仅语言方面无法显著优于仅基于文本的模型，因此这种多模态预训练对于提高自然语言处理的效果仍需要进一步研究。

Sep, 2021