LLM4Brain：为大脑视频理解训练的大语言模型

Sep, 2024

LLM4Brain：为大脑视频理解训练的大语言模型

LLM4Brain: Training a Large Language Model for Brain Video Understanding

Ruizhe Zheng, Lichao Sun

TL;DR本研究解决了从大脑信号解码视觉语义信息的挑战，包括信噪比低、数据有限及跨个体变异等问题。论文提出了一种基于大型语言模型的创新方法，通过对功能性核磁共振信号进行微调，将大脑反应转化为与视频刺激对齐的潜在表示，并映射至文本模态。最终结果表明，该方法在定量语义指标上表现良好，与真实信息高度相似，具有重要的潜在影响。

Abstract

Decoding Visual-Semantic Information from Brain Signals, such as Functional MRI (fMRI), across different subjects poses significant challe

发现论文，激发创造

视听语言大脑编码

本文系统探讨了图像转换器和多模态转换器在大脑编码方面的有效性，发现多模态转换器VisualBERT在编码上远优于之前提出的单模态CNN、图像转换器以及其他先前提出的多模态模型，这表明视觉语言模型的优越性，产生了人们是否在被动地查看图像时，视觉区域的响应是否受到语言处理的影响的问题。

Apr, 2022

脑电波探幽者：从大脑活动中重构复杂图像

本文研究了如何通过结合fMRI神经活动信号、图像和图像语义描述来重建复杂的图像场景，使用深度学习模型，并且通过采用预先训练的视觉-语言潜在空间编码fMRI信号来解决数据稀缺的问题。

Sep, 2022

多模学习脑视语特征解码视觉神经表示

本文提出了一种名为BraVL的神经解码通用方法，采用三模态深度生成模型对脑部、视觉和语义特征之间的关系进行建模，以提高对新颖视觉类别的准确性，进而发现通过视觉和语义特征的组合进行解码比单独使用这两者更卓越，进而表明视觉感知可能伴随语言影响以表示视觉刺激的语义。

Oct, 2022

基于多模态Transformer的大脑编码模型可跨越语言和视觉进行转移

本研究旨在探究多模态变形器提供的洞察能力，通过对多模态编码模型进行训练，发现多模态变形器学习了语言和视觉中概念表示的更多对齐性，并且可以有效预测大脑对于故事和电影的fMRI反应，从而揭示了多模态处理的潜力和相关的概念表示模型的比较。

May, 2023

与LLM对齐：一种用于编码视觉皮层fMRI活动的新型多模态训练范式

提出了一种新的多模态训练范式，用于编码视觉皮层中的fMRI活动。使用预训练的LLM和对比损失函数完成图像和文本信息的对齐，提高了视觉编码模型的性能。

Jan, 2024

语言模型对生物医学成像任务的免费助推器

该研究揭示了残差型大型语言模型在生物医学图像任务中作为编码器的意外有效性，这在传统上与语言或文本数据无关。通过利用预训练的大型语言模型中的冻结变压器块作为创新编码器层，该方法与现有方法学不同，可以直接处理视觉标记。该研究发现，这些大型语言模型能够提升生物医学图像应用的性能，包括2D和3D的视觉分类任务，作为即插即用的增强器。更有趣的是，该提出的框架在MedMNIST-2D和3D的大规模标准数据集上取得了卓越的性能，刷新了最新的技术结果。通过这项工作，我们的目标是在生物医学图像领域开拓大型语言模型的应用新途径，并丰富对其在这一专业领域的潜力的认识。

Mar, 2024

通过询问LLMs 提出易于解释的嵌入

通过利用大型语言模型（LLMs）生成的问答嵌入向量（QA-Emb）可以灵活生成可解释的用于预测fMRI核心响应的模型，从而深入评估我们对语义性大脑表示的理解。

May, 2024

MindSemantix: 用大脑-语言模型解读大脑视觉经历

通过脑活动捕获的功能性磁共振成像解译人类视觉体验是神经科学研究领域的前沿挑战之一。本文介绍了MindSemantix，这是一种新颖的多模态框架，使语言模型能够理解脑活动中唤起的语义内容，并形成无缝连接的端到端脑-语言模型。

May, 2024

BrainChat：使用视觉-语言预训练模型从脑功能磁共振成像解码语义信息

使用CoCa模型，本文提出了一种简单而有效的生成框架BrainChat，旨在从脑活动中快速实现语义信息解码任务，包括fMRI问题回答和fMRI字幕生成，通过编码稀疏的fMRI数据，利用对比损失将fMRI、图像和文本嵌入对齐，然后通过交叉注意层将fMRI嵌入映射到生成的脑解码器，以最小化字幕损失的方式以回归的方式生成有关fMRI的文本内容。成功地超过了现有状态-of-the-art方法在fMRI字幕生成任务中，并首次实现了fMRI问题回答。此外，BrainChat在没有图像数据的情况下仍可以实现高性能，更适用于现实世界的数据有限场景。

Jun, 2024

脑流：基于多模态引导的fMRI到图像重建

本研究针对fMRI到图像重建任务中小物体细节缺失和语义模糊的问题，提出了一种基于多模态引导的重建框架Brain-Streams。该框架结合视觉和语义信息，利用现代生成模型（如潜在扩散模型）进行精确的图像重建，验证结果显示出优越的重建能力和应用潜力。

Sep, 2024