口语视觉模型：数据集、架构和评价技术综述

Apr, 2021

口语视觉模型：数据集、架构和评价技术综述

Visually grounded models of spoken language: A survey of datasets, architectures and evaluation techniques

Grzegorz Chrupała

TL;DR本综述纵览近 20 年来视觉基础口语建模的发展，重点讨论了语言学习的核心研究问题、建模架构以及评估指标和分析技术。

Abstract

This survey provides an overview of the evolution of visually grounded models of spoken language over the last 20 years. Such models are inspired by the observation that when children pick up a language, they rel

visually grounded models spoken language language learning machine learning evaluation metrics

发现论文，激发创造

视觉引导语言学习：语言游戏，数据集，任务和模型综述

对于基于语言模型目标在大规模纯文本数据上进行训练的几种机器学习模型，在许多自然语言理解和生成任务上取得了令人印象深刻的结果。然而，对于语义的许多方面，仅仅通过 “倾听收音机” 是无法学习到的。本文系统地回顾了视觉 + 语言领域中提出的多个任务和模型。利用维特根斯坦的 “语言游戏” 思想，将这些任务分为 3 个不同的类别：1）区分性游戏，2）生成性游戏，和 3）交互式游戏。我们的文献分析提供了证据，表明未来的工作应该专注于重要的交互式游戏，在其中自然语言的交流对于解决关于物体指称和行动计划的不确定性是必要的，而物理体现则是理解场景和事件语义的重要条件。作为总体，这些是发展基于神经模型的扎根意义的关键要求。

Dec, 2023

语言表征在视觉语音信号模型中的应用

基于视觉基础的言语知觉模型，使用多层循环高速公路网络对时间性建模，能够从输入信号中提取形式和基于含义的语言学知识，并分析了训练模型不同组件使用的表示方式。在表示层次结构的上升过程中，语义方面的编码越来越丰富，而语言输入中形式相关方面的编码在初始增加后呈现平稳或下降的趋势。

Feb, 2017

基于文本的视觉场景口语理解监督

这篇研究论文主要研究了通过视觉模型来对口语语音进行语义理解，在低资源语言中通过传统的管道方法和端到端方法来提高模型性能，并比较发现管道方法比端到端方法更适用于足够的文本情况下，而翻译可以有效地代替转录，但需要更多的数据才能获得类似的结果。

Oct, 2020

像双语婴儿一样：视觉引导双语语言模型的优势

通过使用 MS-COCO-ES 数据集中的英语和西班牙语的图像和字幕来训练 LSTM 语言模型，研究发现视觉基础能够提高语义相似性的理解能力，特别是在跨语言时，但是在抽象词汇方面没有显著优势。研究还指出，为了进一步提高视觉基础的语言模型的实用性，需要更多多语言数据和多语言说话者的感知基础。

Oct, 2022

视觉基准帮助在低数据环境中学习词义

通过对具有意义的监督的视觉数据进行训练，我们发现在具有限定语言数据的情况下，视觉监督可以提高词汇学习的效率，但这种改进是有限的，并且当前的多模态建模方法未能有效利用视觉信息以构建更具人类特征的词汇表示。

Oct, 2023

通过基于实景的学习掌握语言结构

本文提出了基于语言结构的机器学习任务，并通过三种方案展示了其潜力和可行性，包括通过视觉基现学习语法结构，通过执行感知方法映射句子到语义结构，并通过跨语言词对齐和子结构投影方法改进零样本跨语言依赖分析的性能。

Jun, 2024

定义视觉新时代的基础模型：调查与展望

视觉系统、基础模型、环境中的上下文推理、训练目标和计算机视觉的挑战和研究方向的综述。

Jul, 2023

利用视觉基础的语音建模词汇学习和识别

该研究使用视觉以及语音的统计依赖关系进行词语识别，并探究其中的单复数形式和词汇竞争效应，同时研究了矢量量化在识别词语方面是否有益。

Mar, 2022

多模态大型语言模型的（R）演进：一项调查

连接文本和视觉模态在生成智能中起着关键作用。受大型语言模型成功的启发，目前正在大量研究开发多模态大型语言模型 (MLLMs)。本文全面回顾了最近的面向视觉的 MLLMs，分析了它们的体系结构选择、多模态对齐策略和训练技术。同时，还对这些模型在包括视觉定位、图像生成和编辑、视觉理解以及领域特定应用等一系列任务上进行了详细分析。此外，我们还编译和描述了训练数据集和评估基准，并在性能和计算要求方面对现有模型进行了比较。总体而言，本调查提供了当前最新技术的全面概述，为未来的 MLLMs 奠定了基础。

Feb, 2024

视觉任务的视觉语言模型综述

本文系统回顾了基于语言的视觉模型在各种视觉识别任务中的应用，并总结了广泛采用的网络结构、预训练目标和下游任务，以及预训练和评估中广泛采用的数据集，并回顾和分类现有的预训练方法、传输学习方法和知识蒸馏方法。

Apr, 2023