Aug, 2023

UniBrain:将图像重建与字幕生成统一于一个扩散模型之中从人脑活动

TL;DR通过人脑活动诱发的视觉刺激来进行图像重建和字幕生成,UniBrain 提出了一种统一的人脑活动扩散模型,通过 fMRI 转换文本和图像潜在信息,并通过 CLIP 引导反向扩散过程,从而生成具有低级细节和高语义真实感的图像和字幕。在图像重建和图像字幕生成方面,UniBrain 在定性和定量方面都优于现有方法,并首次在自然场景数据集(NSD)上报告了图像字幕生成结果。此外,消融实验和感兴趣区域(ROI)分析进一步展示了 UniBrain 的优越性,并为视觉诱发脑解码提供全面的见解。