ICMLJun, 2024

揭示多模态网络中的大脑视觉语言融合

TL;DR使用多模态深度神经网络(DNN)预测了人脑多模态整合的位置,通过预测人类在观看电影时的立体脑电图(SEEG)记录,我们将多模态整合的位置定义为多模态视觉语言模型优于单模态语言、单模态视觉或线性整合的区域。通过对不同架构和多模态训练技术的目标 DNN 模型进行对比,我们发现在大脑区域中存在多个整合多模态信息的神经位点。此外,我们发现在我们评估的多模态训练技术变体中,CLIP 风格的训练最适合下游预测这些位点的神经活动。