视觉引导语言学习：语言游戏，数据集，任务和模型综述

Dec, 2023

视觉引导语言学习：语言游戏，数据集，任务和模型综述

Visually Grounded Language Learning: a review of language games, datasets, tasks, and models

Alessandro Suglia, Ioannis Konstas, Oliver Lemon

TL;DR对于基于语言模型目标在大规模纯文本数据上进行训练的几种机器学习模型，在许多自然语言理解和生成任务上取得了令人印象深刻的结果。然而，对于语义的许多方面，仅仅通过 “倾听收音机” 是无法学习到的。本文系统地回顾了视觉 + 语言领域中提出的多个任务和模型。利用维特根斯坦的 “语言游戏” 思想，将这些任务分为 3 个不同的类别：1）区分性游戏，2）生成性游戏，和 3）交互式游戏。我们的文献分析提供了证据，表明未来的工作应该专注于重要的交互式游戏，在其中自然语言的交流对于解决关于物体指称和行动计划的不确定性是必要的，而物理体现则是理解场景和事件语义的重要条件。作为总体，这些是发展基于神经模型的扎根意义的关键要求。

Abstract

In recent years, several machine learning models have been proposed. They are trained with a language modelling objective on large-scale text-only data. With such pretraining, they can achieve impressive results on many Natural Language Understanding and Generation tasks. However, many

machine learning models language games interactive games grounded meanings neural models

发现论文，激发创造

视觉基准帮助在低数据环境中学习词义

通过对具有意义的监督的视觉数据进行训练，我们发现在具有限定语言数据的情况下，视觉监督可以提高词汇学习的效率，但这种改进是有限的，并且当前的多模态建模方法未能有效利用视觉信息以构建更具人类特征的词汇表示。

Oct, 2023

口语视觉模型：数据集、架构和评价技术综述

本综述纵览近 20 年来视觉基础口语建模的发展，重点讨论了语言学习的核心研究问题、建模架构以及评估指标和分析技术。

Apr, 2021

视觉语言预训练是否提高了词汇连接能力？

本文研究比较基于视觉和语言的预训练模型和仅基于文本的预训练模型的语义表示，结果发现基于视觉和语言的模型在仅语言方面无法显著优于仅基于文本的模型，因此这种多模态预训练对于提高自然语言处理的效果仍需要进一步研究。

Sep, 2021

通过基于实景的学习掌握语言结构

本文提出了基于语言结构的机器学习任务，并通过三种方案展示了其潜力和可行性，包括通过视觉基现学习语法结构，通过执行感知方法映射句子到语义结构，并通过跨语言词对齐和子结构投影方法改进零样本跨语言依赖分析的性能。

Jun, 2024

在模拟的 3D 世界中的基于场景语言学习

通过增强和无监督学习，训练具备最少先验知识的机器人在仿真 3D 环境中理解自然语言指令，将语言符号与周围物理环境的感知表示和相关的行动序列联系起来，实现语言含义的压缩和提取，从而揭示出关于语言基于感知概念的本质和潜力。

Jun, 2017

视觉任务的视觉语言模型综述

本文系统回顾了基于语言的视觉模型在各种视觉识别任务中的应用，并总结了广泛采用的网络结构、预训练目标和下游任务，以及预训练和评估中广泛采用的数据集，并回顾和分类现有的预训练方法、传输学习方法和知识蒸馏方法。

Apr, 2023

词典级对比性视觉引导改进语言建模

基于视觉监督的语言学习过程，通过提供词汇信息的早期层表示，兼容多模态的人类语言习得方式，实现了在语言模型中融入视觉基础的潜力。

Mar, 2024

利用视觉可供性在非结构化数据上进行语言基础建设

本文提出了一种基于视觉语言感知模型的新方法，可以在真实世界中从非结构化、离线、无需重置的数据中高效地学习通用的、以语言为条件的机器人技能，实验表明该方法配合 LLMS 可以在真实世界中完成长期、多层次的任务，并比以往方法少使用一个数量级的数据。

Oct, 2022

语言与视觉：基于场景的词语和句子嵌入研究

本研究提出了一种简单且非常有效的预训练词嵌入视觉对齐方法，使得即使对于抽象词，我们也能生成受视觉基础支撑的嵌入，并且在一系列的单词相似性基准测试中证明了视觉基础支撑不仅有益于具体词，还有益于抽象词。

Jun, 2022

基于物体和动作意象的理解语言习得

通过深度学习方法研究自然语言处理，通过训练紧密连接的编码器 / 解码器，在传统的指示语言环境和对比学习环境中开发了一个专用于视觉数据表示的私有语言，并且通过神经机器翻译和随机森林分类的分类层将符号表示转化为类别标签。通过两个实验，旨在进行物体识别和动作识别，研究了从真实图像中生成的草图以及从 3D 运动捕获系统生成的 2D 轨迹，通过梯度加权类激活映射（Grad-CAM）方法和 t-SNE 方法解释了学习到的符号和嵌入。

Sep, 2023