语言处理的多模态基础

Jun, 2018

Multimodal Grounding for Language Processing

Lisa Beinborn, Teresa Botschen, Iryna Gurevych

TL;DR本文讨论多模态处理的最新进展，探讨了多模态信息流和不同的多模态表示方法，讨论了多模态基础对于语言处理任务的益处和挑战。特别着重研究动词的多模态基础，对语言的组成能力起着重要作用。

Abstract

This survey discusses how recent developments in multimodal processing facilitate conceptual grounding of language. We categorize the info

multimodal processing conceptual grounding language cognitive models verbs

发现论文，激发创造

基于方法的地基和全面发展：跨模态和跨语言连接研究的一种方法论

通过建立一种方法论框架，对比训练在不同输入模态下的模型，本文研究了提供比仅有文本更丰富的输入来源对自然语言处理系统的影响，发现交叉模态接地、跨语言接地和未接地的模型之间存在质的差异，这从整体数据集层面和具体词表示层面衡量了模型的表现。

Oct, 2023

多模态大型语言模型在预测语言处理中体现人类式的视觉 - 语言整合的证据

大型语言模型（LLMs）的高级语言处理能力引发了关于它们是否能够复制类似人类认知过程的能力的讨论，本文通过研究多模态语言模型（mLLMs）中的视觉关注权重，发现与人类一样，mLLMs 中基于多模态输入的预测性语言处理过程也会受到视觉特征的注意引导。

Aug, 2023

探索图像字幕中的基础问题

本文从计算认知语言学的角度探讨了多模态语义表示中的基础问题，注释和分析了五个感知属性：可操作性、感知显著性、物体数量、凝视引导和生态学生态位关联。我们对来自 Flickr30k 数据集的选定图像进行了探究性分析和统计建模，发现了在构建过程中，观看者将情境意义和可操作性与多模态语义统合到一起，而这些因素被巩固为包含视觉和文本元素的图像文字数据集中的影像字幕。本研究显示情境意义和可操作性基础对于理解系统生成适当回应至关重要，并有潜力推动人类对不同情境下的构造的理解。

May, 2023

像双语婴儿一样：视觉引导双语语言模型的优势

通过使用 MS-COCO-ES 数据集中的英语和西班牙语的图像和字幕来训练 LSTM 语言模型，研究发现视觉基础能够提高语义相似性的理解能力，特别是在跨语言时，但是在抽象词汇方面没有显著优势。研究还指出，为了进一步提高视觉基础的语言模型的实用性，需要更多多语言数据和多语言说话者的感知基础。

Oct, 2022

多模态机器翻译的视觉注意力基础神经模型

我们介绍了一种新颖的多模式机器翻译模型，利用平行的视觉和文本信息。该模型通过视觉注意力锚定机制链接视觉和文本语义，并实现共享的视觉 - 语言嵌入和翻译器的联合优化，取得了在 Multi30K 和 Ambiguous COCO 数据集上有竞争力的最新结果。我们还收集了一个新的多语言多模态产品描述数据集来模拟真实的国际在线购物场景。在这个数据集上，我们的视觉注意力锚定模型以大幅度优于其他方法的表现脱颖而出。

Aug, 2018

LEGO：语言增强多模态基准模型

我们提出了一种名为 LEGO 的语言增强多模型定位模型，相较于现有的多模型模型，它具备较好识别和定位图像特定区域以及视频特定时刻的能力，通过多样化的数据集构建流程进行模型训练。

Jan, 2024

视觉基准帮助在低数据环境中学习词义

通过对具有意义的监督的视觉数据进行训练，我们发现在具有限定语言数据的情况下，视觉监督可以提高词汇学习的效率，但这种改进是有限的，并且当前的多模态建模方法未能有效利用视觉信息以构建更具人类特征的词汇表示。

Oct, 2023

多模态大型语言模型综述

本文探究了多模态语言模型的研究，集成了多种数据类型，如图像、文本、语言、音频和其他异构数据。通过合并各种模态，多模态模型能够更全面地理解和处理多样化的数据，本文旨在促进对多模态模型及其在各领域中的潜力的更深入理解。

Nov, 2023

多模态指令中的符号基础

本文提出了一种方法来处理跨模态输入的原始流，以产生物体的细分并与高级概念相关联，以学习用户的颜色和形状的概念，并表明该模型可以从少量的物理演示中推广到识别新单词的物理指示。

Jun, 2017

多模态大型语言模型的（R）演进：一项调查

连接文本和视觉模态在生成智能中起着关键作用。受大型语言模型成功的启发，目前正在大量研究开发多模态大型语言模型 (MLLMs)。本文全面回顾了最近的面向视觉的 MLLMs，分析了它们的体系结构选择、多模态对齐策略和训练技术。同时，还对这些模型在包括视觉定位、图像生成和编辑、视觉理解以及领域特定应用等一系列任务上进行了详细分析。此外，我们还编译和描述了训练数据集和评估基准，并在性能和计算要求方面对现有模型进行了比较。总体而言，本调查提供了当前最新技术的全面概述，为未来的 MLLMs 奠定了基础。

Feb, 2024