LLM4Brain:为大脑视频理解训练的大语言模型
本文系统探讨了图像转换器和多模态转换器在大脑编码方面的有效性,发现多模态转换器VisualBERT在编码上远优于之前提出的单模态CNN、图像转换器以及其他先前提出的多模态模型,这表明视觉语言模型的优越性,产生了人们是否在被动地查看图像时,视觉区域的响应是否受到语言处理的影响的问题。
Apr, 2022
本文研究了如何通过结合fMRI神经活动信号、图像和图像语义描述来重建复杂的图像场景,使用深度学习模型,并且通过采用预先训练的视觉-语言潜在空间编码fMRI信号来解决数据稀缺的问题。
Sep, 2022
本文提出了一种名为BraVL的神经解码通用方法,采用三模态深度生成模型对脑部、视觉和语义特征之间的关系进行建模,以提高对新颖视觉类别的准确性,进而发现通过视觉和语义特征的组合进行解码比单独使用这两者更卓越,进而表明视觉感知可能伴随语言影响以表示视觉刺激的语义。
Oct, 2022
本研究旨在探究多模态变形器提供的洞察能力,通过对多模态编码模型进行训练,发现多模态变形器学习了语言和视觉中概念表示的更多对齐性,并且可以有效预测大脑对于故事和电影的fMRI反应,从而揭示了多模态处理的潜力和相关的概念表示模型的比较。
May, 2023
提出了一种新的多模态训练范式,用于编码视觉皮层中的fMRI活动。使用预训练的LLM和对比损失函数完成图像和文本信息的对齐,提高了视觉编码模型的性能。
Jan, 2024
该研究揭示了残差型大型语言模型在生物医学图像任务中作为编码器的意外有效性,这在传统上与语言或文本数据无关。通过利用预训练的大型语言模型中的冻结变压器块作为创新编码器层,该方法与现有方法学不同,可以直接处理视觉标记。该研究发现,这些大型语言模型能够提升生物医学图像应用的性能,包括2D和3D的视觉分类任务,作为即插即用的增强器。更有趣的是,该提出的框架在MedMNIST-2D和3D的大规模标准数据集上取得了卓越的性能,刷新了最新的技术结果。通过这项工作,我们的目标是在生物医学图像领域开拓大型语言模型的应用新途径,并丰富对其在这一专业领域的潜力的认识。
Mar, 2024
通过利用大型语言模型(LLMs)生成的问答嵌入向量(QA-Emb)可以灵活生成可解释的用于预测fMRI核心响应的模型,从而深入评估我们对语义性大脑表示的理解。
May, 2024
通过脑活动捕获的功能性磁共振成像解译人类视觉体验是神经科学研究领域的前沿挑战之一。本文介绍了MindSemantix,这是一种新颖的多模态框架,使语言模型能够理解脑活动中唤起的语义内容,并形成无缝连接的端到端脑-语言模型。
May, 2024
使用CoCa模型,本文提出了一种简单而有效的生成框架BrainChat,旨在从脑活动中快速实现语义信息解码任务,包括fMRI问题回答和fMRI字幕生成,通过编码稀疏的fMRI数据,利用对比损失将fMRI、图像和文本嵌入对齐,然后通过交叉注意层将fMRI嵌入映射到生成的脑解码器,以最小化字幕损失的方式以回归的方式生成有关fMRI的文本内容。成功地超过了现有状态-of-the-art方法在fMRI字幕生成任务中,并首次实现了fMRI问题回答。此外,BrainChat在没有图像数据的情况下仍可以实现高性能,更适用于现实世界的数据有限场景。
Jun, 2024
本研究针对fMRI到图像重建任务中小物体细节缺失和语义模糊的问题,提出了一种基于多模态引导的重建框架Brain-Streams。该框架结合视觉和语义信息,利用现代生成模型(如潜在扩散模型)进行精确的图像重建,验证结果显示出优越的重建能力和应用潜力。
Sep, 2024