Jul, 2024

人类概念处理中的多模态融合建模:视觉与语言模型

TL;DR本研究解决了现有研究大多集中于单模态DNN的问题,探讨了视觉与语言的多模态融合是否比单一模态更能反映人脑活动的真实情况。通过分析参与者在阅读概念词时的fMRI反应,发现多模态视觉与语言模型的表征与大脑语言处理相关区域的激活相关性更强。这一发现有助于理解人类如何整合语言和感知运动信息,从而推动神经科学的研究。