逆转听觉处理路径：基于 fMRI 的由粗到细的音频重建

May, 2024

逆转听觉处理路径：基于 fMRI 的由粗到细的音频重建

Reverse the auditory processing pathway: Coarse-to-fine audio reconstruction from fMRI

Che Liu, Changde Du, Xiaoyu Chen, Huiguang He

TL;DR基于人类听觉系统的层次化处理，从低级声学特征到高级语义理解的转变，我们引入了一种新的粗到细的音频重建方法。利用非侵入式功能性磁共振成像（fMRI）数据，我们的方法模拟了听觉处理的逆向路径。通过初始使用 CLAP 将 fMRI 数据粗略解码到低维语义空间，然后通过语义特征引导进行精细解码到高维 AudioMAE 潜空间。这些精细的神经特征用作通过潜在扩散模型（LDM）进行音频重建的条件。验证在三个公共 fMRI 数据集（Brain2Sound、Brain2Music 和 Brain2Speech）上，我们的粗到细解码方法相对于独立的精细解码方法具有明显优势，并展示了 FD、FAD 和 KL 等度量指标上的最先进性能。此外，在解码过程中使用语义提示时，当语义特征不佳时，我们提高了重建音频的质量。我们模型在各种刺激下的展示性能突出了作为通用脑 - 音频框架的潜力。这项研究对于理解人类听觉系统，在神经解码和音频重建方法方面推动了界限。

Abstract

Drawing inspiration from the hierarchical processing of the human auditory system, which transforms sound from low-level acoustic features to high-level semantic understanding, we introduce a novel coarse-to-fine audio reconstruction method. Leveraging non-invasive functional Magnetic Resonance Imaging (fMRI) data, our approach mimics the inverse pathway of

coarse-to-fine audio reconstruction functional magnetic resonance imaging clap fine-grained decoding latent diffusion model

发现论文，激发创造

从脑活动中解码高分辨率图像的对比、关注和扩散

介绍了一个两阶段的 fMRI 表示学习框架，通过在预处理阶段使用 Double-contrastive Mask Auto-encoder 降噪，并在第二阶段利用图像自动编码器的指导来调整特征学习者，以关注对于视觉重建最有信息的神经激活模式。使用这种优化后的 fMRI 特征学习者条件下的潜在扩散模型重构图像刺激，实验结果证明该模型在生成高分辨率和语义准确的图像方面的优越性，50 种不同目标的情境下，top-1 语义分类的准确率比先前最先进的方法提高了 39.34％。

May, 2023

DREAM：从逆向人类视觉系统实现视觉解码

DREAM 是一种基于人类视觉系统的基础知识的 fMRI 到图像的重构方法，通过模拟人类感知视觉世界的分层和并行特性来构建逆向路径，利用专门的路径从 fMRI 数据中提取语义、颜色和深度线索。实验证明，该方法在外观、结构和语义的一致性方面优于当前最先进的模型。

Oct, 2023

R&B -- 节奏与脑：通过人脑活动解码音乐的跨主体研究

本研究通过功能性磁共振成像（fMRI）测量的人脑活动，探究音乐是否能够从中解码。利用最新的数据集和预训练的计算模型，研究人员构建了神经数据和音乐刺激的潜在表示之间的映射关系，通过功能和解剖对齐技术解决了 fMRI 数据中低时间分辨率和信噪比的挑战。研究结果表明，通过我们的解码方法，我们能够以最先进的准确度识别音乐，并且建议神经基础的音乐检索系统可实现个性化推荐和治疗应用。

Jun, 2024

思维动画化：从缓慢的脑活动中解耦动态自然视觉重建

提出了一种名为 Mind-Animator 的两阶段模型，通过脑活动数据可以重构人类动态视觉，并在三个公共数据集上达到最先进的性能，通过特征解耦和融合，证实了重构视频的神经学解释性。

May, 2024

神经语义解析的粗到细解码

该研究提出了一种基于结构的神经网络架构，将语义解析过程分解为两个阶段，在四个不同领域和含义表达的数据集上进行实验，结果表明该方法在性能方面取得了较好的效果。

May, 2018

Brain2Music: 从人类脑电活动重构音乐

通过功能性磁共振成像（fMRI）捕获的脑活动，我们介绍了一种从脑活动重构音乐的方法，该方法使用音乐检索或 MusicLM 音乐生成模型，根据 fMRI 数据的嵌入来生成类似于人类主体经历的音乐，包括语义特征如流派、乐器和情绪。我们通过体素编码模型分析，探讨了 MusicLM 的不同组件与脑活动之间的关系，并讨论了哪些脑区表示来自纯文本音乐描述的信息。我们提供了补充材料，包括重构音乐的示例。

Jul, 2023

利用对比自监督和潜在扩散从脑活动解码现实图像

我们提出了一个名为 CnD 的两阶段框架，通过自监督对比学习获取功能磁共振成像数据的表示，并利用这些编码的数据重建视觉刺激，从而实现了基于人脑活动的可行的图像重建方法。

Sep, 2023

基于顺序迁移学习的 fMRI 数据解码听到和想象中的音色

使用顺序迁移学习框架的转换器，可以有效地解码音乐音色，形成一种比现有方法更优的 fMRI 数据序列转换框架，用于预测不同 fMRI 数据序列是否记录了相同的音频音色。

May, 2023

脑电波探幽者：从大脑活动中重构复杂图像

本文研究了如何通过结合 fMRI 神经活动信号、图像和图像语义描述来重建复杂的图像场景，使用深度学习模型，并且通过采用预先训练的视觉 - 语言潜在空间编码 fMRI 信号来解决数据稀缺的问题。

Sep, 2022

脑解码：朝着实时重建视觉感知迈进

通过基于高时间分辨率的 MEG 测量脑活动，利用生成型和基础型人工智能系统解码大脑活动，特别是通过功能性磁共振成像 (fMRI) 解码视觉感知，从而在实时应用方面取得了重大进展。

Oct, 2023