UniBrain：将图像重建与字幕生成统一于一个扩散模型之中从人脑活动

Aug, 2023

UniBrain：将图像重建与字幕生成统一于一个扩散模型之中从人脑活动

UniBrain: Unify Image Reconstruction and Captioning All in One Diffusion Model from Human Brain Activity

Weijian Mai, Zhijun Zhang

TL;DR通过人脑活动诱发的视觉刺激来进行图像重建和字幕生成，UniBrain 提出了一种统一的人脑活动扩散模型，通过 fMRI 转换文本和图像潜在信息，并通过 CLIP 引导反向扩散过程，从而生成具有低级细节和高语义真实感的图像和字幕。在图像重建和图像字幕生成方面，UniBrain 在定性和定量方面都优于现有方法，并首次在自然场景数据集（NSD）上报告了图像字幕生成结果。此外，消融实验和感兴趣区域（ROI）分析进一步展示了 UniBrain 的优越性，并为视觉诱发脑解码提供全面的见解。

Abstract

image reconstruction and captioning from brain activity evoked by visual stimuli allow researchers to further understand the connection be

image reconstruction captioning brain activity diffusion model visual perception system

发现论文，激发创造

脑部字幕：将人脑活动解码成图像和文本

该研究采用 fMRI 技术和图像生成模型，提出了一种基于大脑神经活动解码为图像文字的方法，该方法包括图像重建流程和基于深度图的图像生成模型，实验证明其在神经科学方面具有广泛应用的潜力。

May, 2023

MindDiffuser：基于语义和结构扩散的人脑活动控制图像重建

本文提出了一种名为 MindDiffuser 的两阶段图像重构模型，利用了稳定扩散技术，成功地同时实现了语义和结构信息的重构，并在自然场景数据集方面的重建结果超过了当前最先进模型。

Mar, 2023

MindDiffuser：使用语义和结构扩散从人类大脑活动进行受控图像重建

我们提出了一种名为 MindDiffuser 的两阶段图像重建模型，通过使用 fMRI 进行前向估计和反向传播来实现想定图像的语义和结构信息的精确对齐，实验结果表明该模型在自然场景数据集上超过了现有的最先进模型，并且与相应的大脑反应呈现的多模态特征解释力一致，从而证实其神经生物学的合理性。

Aug, 2023

Brain-Diffuser: 使用生成潜在扩散从 fMRI 信号中重建自然场景

利用神经解码技术和新型图像生成的巨大进展，我们提出了一个两阶段场景重建框架（Brain-Diffuser），它能够从 fMRI 信号中推断出场景的低级特征和整体布局，随后通过潜在扩散模型生成最终重建的图像。该方法在公开数据集基准测试中表现出色，在应用（例如脑机接口）和基础神经科学方面都有深远的影响。

Mar, 2023

利用对比自监督和潜在扩散从脑活动解码现实图像

我们提出了一个名为 CnD 的两阶段框架，通过自监督对比学习获取功能磁共振成像数据的表示，并利用这些编码的数据重建视觉刺激，从而实现了基于人脑活动的可行的图像重建方法。

Sep, 2023

利用多个解码输入通过潜在扩散模型改进从人脑活动中重建视觉图像

通过深度学习和神经科学的整合，本研究使用多种不同的解码技术对视觉体验的再建进行了实验，证明了这些技术能够大大提高基线准确率。

Jun, 2023

BrainNetDiff：基于多模态扩散模型的生成式人工智能助力脑网络生成

通过引入一种名为 BrainNetDiff 的新方法，结合多头变换器编码器从 fMRI 时间序列中提取相关特征，并结合条件潜在扩散模型进行大脑网络生成，从图像到图形的融合，显著提高了大脑网络生成的准确性和稳定性，验证了该框架在构建健康和神经学受损队列中的大脑网络方面的适用性，实验证明了该方法在下游疾病分类任务中的显著效果，突出了大脑网络研究的前景价值，特别是在神经影像学分析和疾病诊断中的关键意义，为多模态大脑影像数据处理提供了有价值的参考，并为神经影像领域引入了一种新的高效解决方案。

Nov, 2023

BrainChat：使用视觉 - 语言预训练模型从脑功能磁共振成像解码语义信息

使用 CoCa 模型，本文提出了一种简单而有效的生成框架 BrainChat，旨在从脑活动中快速实现语义信息解码任务，包括 fMRI 问题回答和 fMRI 字幕生成，通过编码稀疏的 fMRI 数据，利用对比损失将 fMRI、图像和文本嵌入对齐，然后通过交叉注意层将 fMRI 嵌入映射到生成的脑解码器，以最小化字幕损失的方式以回归的方式生成有关 fMRI 的文本内容。成功地超过了现有状态 - of-the-art 方法在 fMRI 字幕生成任务中，并首次实现了 fMRI 问题回答。此外，BrainChat 在没有图像数据的情况下仍可以实现高性能，更适用于现实世界的数据有限场景。

Jun, 2024

通过引导性随机搜索从人脑活动中重建已见图像

利用条件生成扩散模型对大脑活动中的语义描述符进行可视化重建，有效改善了搜索策略，同时保持了低级图像细节的精细度和语义信息的一致性，并且发现该过程的收敛时间与视觉皮层的区域差异有关。

Apr, 2023

单向脑机接口：人工神经网络将自然图像编码为视觉皮层的 fMRI 反应

通过使用具有视觉和上下文输入的多模态模型 VISION，我们成功预测了人类大脑对自然图像的功能性磁共振成像（fMRI）扫描反应，其准确度超过了现有技术性能 45％，并揭示了不同视觉区域的表征偏差，生成了可实验检验的假设，并形成了可解释的指标将这些假设与皮层功能相关联，为设计和实现视觉皮层功能分析带来了降低成本和时间负担的可能性。通过计算模型的进化，我们的工作表明可能揭示出对视觉皮层的基本理解，并提供可靠的脑机接口的可行方法。

Sep, 2023