多模态语言模型中的当前挑战的视觉导览
本文研究了多模式翻译任务的两个子任务:学习翻译和学习视觉有关表征,并在多任务学习框架中通过注意力编码器 - 解码器和图像表征预测的方式实现。通过实验发现,这种方法在 Multi30K 数据集上比基准表现要好,即使在外部 MS COCO 数据集进行训练也同样有效,而在外部 News Commentary 平行文本训练翻译模型时进一步提高了性能。
May, 2017
本研究提出了一种同时利用文本和视觉上下文以学习多模态词嵌入的端到端方法,通过将视觉上下文元素整合到多模态 skip-gram 模型中,探索了何种因素可以作为视觉上下文,并进行了实验和分析。
Nov, 2017
本研究比较了来自不同模型的单词嵌入,在 46 个语义参数中识别出最受视觉语境影响的单词,并发现视觉模态效应与涉及具体性的指示语义属性最相关,但也适用于多个特定的语义类别,以及与情感相关的联想语言表达的倾向属性。
Jun, 2023
本文提出了一种新方法来将视觉信息作为协助信号用于 NLP 任务,使用 Transformer 编码器和卷积神经网络来对文本和图像进行编码,通过注意力层将两种模态的表征进行融合,实验结果表明,该方法在不同的任务和语言中都具有很好的效果。
Jan, 2023
通过构建多任务模型、保留高保真度的视频本机时空分词器、以及可解释的词汇术语与视觉观察之间的映射,我们的研究证明了多模态潜在空间设计的可行性,并提出了一种优于行业标准编解码器的视频本机时空分词器,从而在视频合成方面实现了语言模型超越扩散模型的首次突破。进一步地,我们的可扩展视觉令牌表示法在生成、压缩和理解任务中都表现出明显的优势。这项研究的成果为未来在生成非文本数据、实现实时互动体验等方面提供了有趣的潜力。
May, 2024
连接文本和视觉模态在生成智能中起着关键作用。受大型语言模型成功的启发,目前正在大量研究开发多模态大型语言模型 (MLLMs)。本文全面回顾了最近的面向视觉的 MLLMs,分析了它们的体系结构选择、多模态对齐策略和训练技术。同时,还对这些模型在包括视觉定位、图像生成和编辑、视觉理解以及领域特定应用等一系列任务上进行了详细分析。此外,我们还编译和描述了训练数据集和评估基准,并在性能和计算要求方面对现有模型进行了比较。总体而言,本调查提供了当前最新技术的全面概述,为未来的 MLLMs 奠定了基础。
Feb, 2024
本文研究多模态图像语言变换器的预训练表示质量,研究表明在需要谓语理解的情况下这些模型的表现不佳,通过图像 - 语句对数据集评估模型性能,分类词汇类型并找到特别具有挑战性的词汇类型。
Jun, 2021
研究 transformers 中的注意机制对视觉和语言任务的扩展,并发展适应性方法来提高模型的可解释性和计算效率。具体地,研究注意范围、稀疏和结构化 dropout 等方法,以帮助了解模型对输入序列的复杂性感知和对不同模态的稀疏性偏好。
May, 2020