基于多模态 Transformer 的大脑编码模型可跨越语言和视觉进行转移
本文系统探讨了图像转换器和多模态转换器在大脑编码方面的有效性,发现多模态转换器 VisualBERT 在编码上远优于之前提出的单模态 CNN、图像转换器以及其他先前提出的多模态模型,这表明视觉语言模型的优越性,产生了人们是否在被动地查看图像时,视觉区域的响应是否受到语言处理的影响的问题。
Apr, 2022
我们通过利用脑科学证据来探索预训练的多模态视频变换器模型,发现视觉增强了与语言处理中的遮蔽预测性能,支持模型中交叉模态表示可以受益于个体模态,但未发现与大脑相关的信息,我们展示使用一个需要视觉 - 语言推理的任务,可以改善预训练联合表示的脑对齐效果,这些结果呈现了多模态变换器在部分与大脑相关的方式上集成视觉和语言的能力,但也表明改善这些模型的脑对齐可能需要新的方法。
Nov, 2023
通过向文本转换器添加视觉信息,我们研究了冻结的文本转换器如何使用自监督视觉编码器和单一线性投影将一种模态的学习表示迁移到另一种模态,在转换器内部发现了模态之间的转换,并通过识别多模态神经元和解码它们注入模型剩余流的概念来验证其作用。通过一系列实验证明多模态神经元在特定的视觉概念上操作,并对图像字幕生成产生系统性的因果影响。
Aug, 2023
基于刺激图像和相关文本信息的多模态视觉信息编码网络模型,将口头语义信息作为新信息嵌入视觉编码模型,通过 Transformer 网络对图像和文本特征信息进行对齐,构建多模态特征空间。实验结果表明该模型的性能优于先前的模型,并且消融实验证明我们提出的模型更好地模拟了大脑的视觉信息处理。
Aug, 2023
研究了预训练的视觉和语言 BERT 学习跨模态信息组合表示的方法,通过交叉模态输入消融来评估这些模型集成跨模态信息的程度,并发现最近提出的模型在处理缺失视觉信息的情况下比处理缺失文本信息的情况更难,表明这些模型不是对称的跨模态。
Sep, 2021
通过大规模的功能性磁共振成像 (fMRI) 数据集,本研究提出并使用了一种新的模态不可知解码器,能够将大范围的视觉、语言和多模态模型的脑信号映射到刺激表示上,发现模态不可知解码器表现与模态特定解码器相当甚至更好,并且单模态解码器表现与多模态解码器相当,同时高级的视觉区域可以很好地解码文本和图像刺激。
Mar, 2024
使用多模态深度神经网络(DNN)预测了人脑多模态整合的位置,通过预测人类在观看电影时的立体脑电图(SEEG)记录,我们将多模态整合的位置定义为多模态视觉语言模型优于单模态语言、单模态视觉或线性整合的区域。通过对不同架构和多模态训练技术的目标 DNN 模型进行对比,我们发现在大脑区域中存在多个整合多模态信息的神经位点。此外,我们发现在我们评估的多模态训练技术变体中,CLIP 风格的训练最适合下游预测这些位点的神经活动。
Jun, 2024
研究 transformers 中的注意机制对视觉和语言任务的扩展,并发展适应性方法来提高模型的可解释性和计算效率。具体地,研究注意范围、稀疏和结构化 dropout 等方法,以帮助了解模型对输入序列的复杂性感知和对不同模态的稀疏性偏好。
May, 2020
本文提出了一种名为 BraVL 的神经解码通用方法,采用三模态深度生成模型对脑部、视觉和语义特征之间的关系进行建模,以提高对新颖视觉类别的准确性,进而发现通过视觉和语义特征的组合进行解码比单独使用这两者更卓越,进而表明视觉感知可能伴随语言影响以表示视觉刺激的语义。
Oct, 2022