Jun, 2024

BrainChat:使用视觉-语言预训练模型从脑功能磁共振成像解码语义信息

TL;DR使用CoCa模型,本文提出了一种简单而有效的生成框架BrainChat,旨在从脑活动中快速实现语义信息解码任务,包括fMRI问题回答和fMRI字幕生成,通过编码稀疏的fMRI数据,利用对比损失将fMRI、图像和文本嵌入对齐,然后通过交叉注意层将fMRI嵌入映射到生成的脑解码器,以最小化字幕损失的方式以回归的方式生成有关fMRI的文本内容。成功地超过了现有状态-of-the-art方法在fMRI字幕生成任务中,并首次实现了fMRI问题回答。此外,BrainChat在没有图像数据的情况下仍可以实现高性能,更适用于现实世界的数据有限场景。