口语视觉模型:数据集、架构和评价技术综述
对于基于语言模型目标在大规模纯文本数据上进行训练的几种机器学习模型,在许多自然语言理解和生成任务上取得了令人印象深刻的结果。然而,对于语义的许多方面,仅仅通过 “倾听收音机” 是无法学习到的。本文系统地回顾了视觉 + 语言领域中提出的多个任务和模型。利用维特根斯坦的 “语言游戏” 思想,将这些任务分为 3 个不同的类别:1)区分性游戏,2)生成性游戏,和 3)交互式游戏。我们的文献分析提供了证据,表明未来的工作应该专注于重要的交互式游戏,在其中自然语言的交流对于解决关于物体指称和行动计划的不确定性是必要的,而物理体现则是理解场景和事件语义的重要条件。作为总体,这些是发展基于神经模型的扎根意义的关键要求。
Dec, 2023
基于视觉基础的言语知觉模型,使用多层循环高速公路网络对时间性建模,能够从输入信号中提取形式和基于含义的语言学知识,并分析了训练模型不同组件使用的表示方式。在表示层次结构的上升过程中,语义方面的编码越来越丰富,而语言输入中形式相关方面的编码在初始增加后呈现平稳或下降的趋势。
Feb, 2017
这篇研究论文主要研究了通过视觉模型来对口语语音进行语义理解,在低资源语言中通过传统的管道方法和端到端方法来提高模型性能,并比较发现管道方法比端到端方法更适用于足够的文本情况下,而翻译可以有效地代替转录,但需要更多的数据才能获得类似的结果。
Oct, 2020
通过使用 MS-COCO-ES 数据集中的英语和西班牙语的图像和字幕来训练 LSTM 语言模型,研究发现视觉基础能够提高语义相似性的理解能力,特别是在跨语言时,但是在抽象词汇方面没有显著优势。研究还指出,为了进一步提高视觉基础的语言模型的实用性,需要更多多语言数据和多语言说话者的感知基础。
Oct, 2022
通过对具有意义的监督的视觉数据进行训练,我们发现在具有限定语言数据的情况下,视觉监督可以提高词汇学习的效率,但这种改进是有限的,并且当前的多模态建模方法未能有效利用视觉信息以构建更具人类特征的词汇表示。
Oct, 2023
本文提出了基于语言结构的机器学习任务,并通过三种方案展示了其潜力和可行性,包括通过视觉基现学习语法结构,通过执行感知方法映射句子到语义结构,并通过跨语言词对齐和子结构投影方法改进零样本跨语言依赖分析的性能。
Jun, 2024
连接文本和视觉模态在生成智能中起着关键作用。受大型语言模型成功的启发,目前正在大量研究开发多模态大型语言模型 (MLLMs)。本文全面回顾了最近的面向视觉的 MLLMs,分析了它们的体系结构选择、多模态对齐策略和训练技术。同时,还对这些模型在包括视觉定位、图像生成和编辑、视觉理解以及领域特定应用等一系列任务上进行了详细分析。此外,我们还编译和描述了训练数据集和评估基准,并在性能和计算要求方面对现有模型进行了比较。总体而言,本调查提供了当前最新技术的全面概述,为未来的 MLLMs 奠定了基础。
Feb, 2024
本文系统回顾了基于语言的视觉模型在各种视觉识别任务中的应用,并总结了广泛采用的网络结构、预训练目标和下游任务,以及预训练和评估中广泛采用的数据集,并回顾和分类现有的预训练方法、传输学习方法和知识蒸馏方法。
Apr, 2023