May, 2023

基于多模态 Transformer 的大脑编码模型可跨越语言和视觉进行转移

TL;DR本研究旨在探究多模态变形器提供的洞察能力,通过对多模态编码模型进行训练,发现多模态变形器学习了语言和视觉中概念表示的更多对齐性,并且可以有效预测大脑对于故事和电影的 fMRI 反应,从而揭示了多模态处理的潜力和相关的概念表示模型的比较。