一种辅助引入语义信息的多模态视觉编码模型
本文系统探讨了图像转换器和多模态转换器在大脑编码方面的有效性,发现多模态转换器 VisualBERT 在编码上远优于之前提出的单模态 CNN、图像转换器以及其他先前提出的多模态模型,这表明视觉语言模型的优越性,产生了人们是否在被动地查看图像时,视觉区域的响应是否受到语言处理的影响的问题。
Apr, 2022
本研究旨在探究多模态变形器提供的洞察能力,通过对多模态编码模型进行训练,发现多模态变形器学习了语言和视觉中概念表示的更多对齐性,并且可以有效预测大脑对于故事和电影的 fMRI 反应,从而揭示了多模态处理的潜力和相关的概念表示模型的比较。
May, 2023
本文提出了一种名为 BraVL 的神经解码通用方法,采用三模态深度生成模型对脑部、视觉和语义特征之间的关系进行建模,以提高对新颖视觉类别的准确性,进而发现通过视觉和语义特征的组合进行解码比单独使用这两者更卓越,进而表明视觉感知可能伴随语言影响以表示视觉刺激的语义。
Oct, 2022
本文提出了一种新方法来将视觉信息作为协助信号用于 NLP 任务,使用 Transformer 编码器和卷积神经网络来对文本和图像进行编码,通过注意力层将两种模态的表征进行融合,实验结果表明,该方法在不同的任务和语言中都具有很好的效果。
Jan, 2023
本文提出了一种多模态学习的编码器 - 解码器模型,学习图像和文本的多模态联合嵌入空间和现代语言模型。使用 LSTM 进行句子编码,该模型在 Flickr8K 和 Flickr30K 数据集上表现出色。同时,该模型通过线性编码器捕捉到了空间算术中的多模态规律。
Nov, 2014
我们通过利用脑科学证据来探索预训练的多模态视频变换器模型,发现视觉增强了与语言处理中的遮蔽预测性能,支持模型中交叉模态表示可以受益于个体模态,但未发现与大脑相关的信息,我们展示使用一个需要视觉 - 语言推理的任务,可以改善预训练联合表示的脑对齐效果,这些结果呈现了多模态变换器在部分与大脑相关的方式上集成视觉和语言的能力,但也表明改善这些模型的脑对齐可能需要新的方法。
Nov, 2023
本文提出了一种名为文本视觉深度二进制编码(TVDB)的方法,该方法利用区域卷积网络和文本卷积网络来分别探索图像的区域细节和句子的语义线索,通过交替优化来高效地优化二进制编码和深层编码函数,实验证明此方法能够显著提高跨模态检索的性能。
Aug, 2017
我们介绍了一种新颖的多模式机器翻译模型,利用平行的视觉和文本信息。该模型通过视觉注意力锚定机制链接视觉和文本语义,并实现共享的视觉 - 语言嵌入和翻译器的联合优化,取得了在 Multi30K 和 Ambiguous COCO 数据集上有竞争力的最新结果。我们还收集了一个新的多语言多模态产品描述数据集来模拟真实的国际在线购物场景。在这个数据集上,我们的视觉注意力锚定模型以大幅度优于其他方法的表现脱颖而出。
Aug, 2018
本文提出了一种文字引导图像压缩的多模态机器学习方法,通过使用文本的语义信息来引导图像压缩,以实现更好的压缩性能,包括采用图像 - 文本注意力模块和改进的多模态语义一致性损失函数。实验证明,该方法能够在极低比特率下获得较好的视觉效果,并且即使与最先进的技术相比,其性能也可以相媲美或超越。
Apr, 2023
本文提出了一种 Visual-Semantic Transformer 的模型,通过 Transformer 模块和视觉 - 语义对齐模块从视觉特征映射中提取出主要的语义信息,然后将语义信息和视觉特征序列组合成伪多域序列,进而通过交互模块增强视觉特征和语义信息之间的相互作用,从而实现文本识别。实验结果表明,该模型在包括正常 / 不规则文本识别数据集在内的七个公共基准上达到了最先进水平。
Dec, 2021