语言处理的多模态基础
通过建立一种方法论框架,对比训练在不同输入模态下的模型,本文研究了提供比仅有文本更丰富的输入来源对自然语言处理系统的影响,发现交叉模态接地、跨语言接地和未接地的模型之间存在质的差异,这从整体数据集层面和具体词表示层面衡量了模型的表现。
Oct, 2023
大型语言模型(LLMs)的高级语言处理能力引发了关于它们是否能够复制类似人类认知过程的能力的讨论,本文通过研究多模态语言模型(mLLMs)中的视觉关注权重,发现与人类一样,mLLMs 中基于多模态输入的预测性语言处理过程也会受到视觉特征的注意引导。
Aug, 2023
本文从计算认知语言学的角度探讨了多模态语义表示中的基础问题,注释和分析了五个感知属性:可操作性、感知显著性、物体数量、凝视引导和生态学生态位关联。我们对来自 Flickr30k 数据集的选定图像进行了探究性分析和统计建模,发现了在构建过程中,观看者将情境意义和可操作性与多模态语义统合到一起,而这些因素被巩固为包含视觉和文本元素的图像文字数据集中的影像字幕。本研究显示情境意义和可操作性基础对于理解系统生成适当回应至关重要,并有潜力推动人类对不同情境下的构造的理解。
May, 2023
通过使用 MS-COCO-ES 数据集中的英语和西班牙语的图像和字幕来训练 LSTM 语言模型,研究发现视觉基础能够提高语义相似性的理解能力,特别是在跨语言时,但是在抽象词汇方面没有显著优势。研究还指出,为了进一步提高视觉基础的语言模型的实用性,需要更多多语言数据和多语言说话者的感知基础。
Oct, 2022
我们介绍了一种新颖的多模式机器翻译模型,利用平行的视觉和文本信息。该模型通过视觉注意力锚定机制链接视觉和文本语义,并实现共享的视觉 - 语言嵌入和翻译器的联合优化,取得了在 Multi30K 和 Ambiguous COCO 数据集上有竞争力的最新结果。我们还收集了一个新的多语言多模态产品描述数据集来模拟真实的国际在线购物场景。在这个数据集上,我们的视觉注意力锚定模型以大幅度优于其他方法的表现脱颖而出。
Aug, 2018
我们提出了一种名为 LEGO 的语言增强多模型定位模型,相较于现有的多模型模型,它具备较好识别和定位图像特定区域以及视频特定时刻的能力,通过多样化的数据集构建流程进行模型训练。
Jan, 2024
通过对具有意义的监督的视觉数据进行训练,我们发现在具有限定语言数据的情况下,视觉监督可以提高词汇学习的效率,但这种改进是有限的,并且当前的多模态建模方法未能有效利用视觉信息以构建更具人类特征的词汇表示。
Oct, 2023
本文探究了多模态语言模型的研究,集成了多种数据类型,如图像、文本、语言、音频和其他异构数据。通过合并各种模态,多模态模型能够更全面地理解和处理多样化的数据,本文旨在促进对多模态模型及其在各领域中的潜力的更深入理解。
Nov, 2023
本文提出了一种方法来处理跨模态输入的原始流,以产生物体的细分并与高级概念相关联,以学习用户的颜色和形状的概念,并表明该模型可以从少量的物理演示中推广到识别新单词的物理指示。
Jun, 2017
连接文本和视觉模态在生成智能中起着关键作用。受大型语言模型成功的启发,目前正在大量研究开发多模态大型语言模型 (MLLMs)。本文全面回顾了最近的面向视觉的 MLLMs,分析了它们的体系结构选择、多模态对齐策略和训练技术。同时,还对这些模型在包括视觉定位、图像生成和编辑、视觉理解以及领域特定应用等一系列任务上进行了详细分析。此外,我们还编译和描述了训练数据集和评估基准,并在性能和计算要求方面对现有模型进行了比较。总体而言,本调查提供了当前最新技术的全面概述,为未来的 MLLMs 奠定了基础。
Feb, 2024