Nov, 2023

多模视觉-语言整合的多模视频变压器与大脑(部分)对齐

TL;DR我们通过利用脑科学证据来探索预训练的多模态视频变换器模型,发现视觉增强了与语言处理中的遮蔽预测性能,支持模型中交叉模态表示可以受益于个体模态,但未发现与大脑相关的信息,我们展示使用一个需要视觉-语言推理的任务,可以改善预训练联合表示的脑对齐效果,这些结果呈现了多模态变换器在部分与大脑相关的方式上集成视觉和语言的能力,但也表明改善这些模型的脑对齐可能需要新的方法。