一种辅助引入语义信息的多模态视觉编码模型

Aug, 2023

一种辅助引入语义信息的多模态视觉编码模型

A Multimodal Visual Encoding Model Aided by Introducing Verbal Semantic Information

Shuxiao Ma, Linyuan Wang, Bin Yan

TL;DR基于刺激图像和相关文本信息的多模态视觉信息编码网络模型，将口头语义信息作为新信息嵌入视觉编码模型，通过 Transformer 网络对图像和文本特征信息进行对齐，构建多模态特征空间。实验结果表明该模型的性能优于先前的模型，并且消融实验证明我们提出的模型更好地模拟了大脑的视觉信息处理。

Abstract

Biological research has revealed that the verbal semantic information in the brain cortex, as an additional source, participates in nonverbal semantic tasks, such as visual encoding. However, previous

verbal semantic information visual encoding multimodal visual information encoding network model transformer network brain's visual information processing

发现论文，激发创造

视听语言大脑编码

本文系统探讨了图像转换器和多模态转换器在大脑编码方面的有效性，发现多模态转换器 VisualBERT 在编码上远优于之前提出的单模态 CNN、图像转换器以及其他先前提出的多模态模型，这表明视觉语言模型的优越性，产生了人们是否在被动地查看图像时，视觉区域的响应是否受到语言处理的影响的问题。

Apr, 2022

基于多模态 Transformer 的大脑编码模型可跨越语言和视觉进行转移

本研究旨在探究多模态变形器提供的洞察能力，通过对多模态编码模型进行训练，发现多模态变形器学习了语言和视觉中概念表示的更多对齐性，并且可以有效预测大脑对于故事和电影的 fMRI 反应，从而揭示了多模态处理的潜力和相关的概念表示模型的比较。

May, 2023

多模学习脑视语特征解码视觉神经表示

本文提出了一种名为 BraVL 的神经解码通用方法，采用三模态深度生成模型对脑部、视觉和语义特征之间的关系进行建模，以提高对新颖视觉类别的准确性，进而发现通过视觉和语义特征的组合进行解码比单独使用这两者更卓越，进而表明视觉感知可能伴随语言影响以表示视觉刺激的语义。

Oct, 2022

语言理解通用多模态表示

本文提出了一种新方法来将视觉信息作为协助信号用于 NLP 任务，使用 Transformer 编码器和卷积神经网络来对文本和图像进行编码，通过注意力层将两种模态的表征进行融合，实验结果表明，该方法在不同的任务和语言中都具有很好的效果。

Jan, 2023

多模态神经语言模型统一视觉 - 语义嵌入

本文提出了一种多模态学习的编码器 - 解码器模型，学习图像和文本的多模态联合嵌入空间和现代语言模型。使用 LSTM 进行句子编码，该模型在 Flickr8K 和 Flickr30K 数据集上表现出色。同时，该模型通过线性编码器捕捉到了空间算术中的多模态规律。

Nov, 2014

多模视觉 - 语言整合的多模视频变压器与大脑 (部分) 对齐

我们通过利用脑科学证据来探索预训练的多模态视频变换器模型，发现视觉增强了与语言处理中的遮蔽预测性能，支持模型中交叉模态表示可以受益于个体模态，但未发现与大脑相关的信息，我们展示使用一个需要视觉 - 语言推理的任务，可以改善预训练联合表示的脑对齐效果，这些结果呈现了多模态变换器在部分与大脑相关的方式上集成视觉和语言的能力，但也表明改善这些模型的脑对齐可能需要新的方法。

Nov, 2023

Deep Binaries: 对话 - 视觉跨检索中编码语义丰富线索的有效方法

本文提出了一种名为文本视觉深度二进制编码（TVDB）的方法，该方法利用区域卷积网络和文本卷积网络来分别探索图像的区域细节和句子的语义线索，通过交替优化来高效地优化二进制编码和深层编码函数，实验证明此方法能够显著提高跨模态检索的性能。

Aug, 2017

多模态机器翻译的视觉注意力基础神经模型

我们介绍了一种新颖的多模式机器翻译模型，利用平行的视觉和文本信息。该模型通过视觉注意力锚定机制链接视觉和文本语义，并实现共享的视觉 - 语言嵌入和翻译器的联合优化，取得了在 Multi30K 和 Ambiguous COCO 数据集上有竞争力的最新结果。我们还收集了一个新的多语言多模态产品描述数据集来模拟真实的国际在线购物场景。在这个数据集上，我们的视觉注意力锚定模型以大幅度优于其他方法的表现脱颖而出。

Aug, 2018

极端学习图像多模态深度网络压缩

本文提出了一种文字引导图像压缩的多模态机器学习方法，通过使用文本的语义信息来引导图像压缩，以实现更好的压缩性能，包括采用图像 - 文本注意力模块和改进的多模态语义一致性损失函数。实验证明，该方法能够在极低比特率下获得较好的视觉效果，并且即使与最先进的技术相比，其性能也可以相媲美或超越。

Apr, 2023

场景文本识别的视觉语义变换器

本文提出了一种 Visual-Semantic Transformer 的模型，通过 Transformer 模块和视觉 - 语义对齐模块从视觉特征映射中提取出主要的语义信息，然后将语义信息和视觉特征序列组合成伪多域序列，进而通过交互模块增强视觉特征和语义信息之间的相互作用，从而实现文本识别。实验结果表明，该模型在包括正常 / 不规则文本识别数据集在内的七个公共基准上达到了最先进水平。

Dec, 2021