基于顺序迁移学习的 fMRI 数据解码听到和想象中的音色

May, 2023

基于顺序迁移学习的 fMRI 数据解码听到和想象中的音色

Sequential Transfer Learning to Decode Heard and Imagined Timbre from fMRI Data

Sean Paulsen, Michael Casey

TL;DR使用顺序迁移学习框架的转换器，可以有效地解码音乐音色，形成一种比现有方法更优的 fMRI 数据序列转换框架，用于预测不同 fMRI 数据序列是否记录了相同的音频音色。

Abstract

We present a sequential transfer learning framework for transformers on functional magnetic resonance imaging (fMRI) data and demonstrate

sequential transfer learning transformers functional magnetic resonance imaging musical timbre temporal and spatial dynamics

发现论文，激发创造

自监督训练配对脑功能核磁共振数据的迁移学习应用于脑解码任务

本文介绍了一种自监督预训练框架，用于基于功能性磁共振（fMRI）数据的变压器。作者在两种自监督任务上预训练模型，以教授模型人类听觉皮层在音乐听取期间的时间和空间动态。作者的预训练结果表明，多任务训练对 fMRI 数据具有协同效应。作者在监督 fMRI 分类任务上发现，微调预先训练的模型和训练额外的新模型都能够显著提高准确性，证明了预训练任务促进迁移学习的能力。

May, 2023

透视他们的思维：从跨受试者的 fMRI 学习可迁移的神经表达

我们提出了一种新的方法来解决功能磁共振成像（fMRI）数据稀缺和噪声干扰脑解码模型性能的问题，通过浅层主体特定适配器将跨学科的 fMRI 数据映射到统一的表示中，然后使用共享的深层解码模型将跨学科特征解码为目标特征空间，利用视觉和文本监督进行多模态脑解码的训练，实验证明了我们模型在所有科目中的鲁棒神经表示学习，并且将高级和低级信息相结合可以改善重建度量。

Mar, 2024

医用 Transformer：3D MRI 分析通用脑编码器

本文提出了一种新的转移学习框架 —— 医学变压器，能够在充分利用三个平面信息的同时，有效地使用 2D 图像切片的序列建模三维体积图像。在大规模健康人脑磁共振成像数据集上进行自监督学习预训练后，评估结果表明，我们的做法优于现有 State-of-the-art 的转移学习方法，可将分类任务的参数数量有效减少近 92%。

Apr, 2021

基于 Transformer 的序列到序列钢琴转录

本文展示了使用通用 encoder-decoder Transformer 和标准解码方法可实现与专业领域特定设计模型同等效果的自动音乐转录方法，从而取消了任务特定架构的需求，简化了转录，为集中精力于数据集创建和标注而非模型设计提供了可能性。

Jul, 2021

通过物理知识引导的多任务转换器的嵌入网络理解听觉诱发的脑信号

通过物理启发嵌入网络和深度学习技术，我们提出了一种创新的多任务学习模型 PEMT-Net，用于增强多任务听觉信号解码性能，从而超越现有方法并为理解大脑处理复杂听觉信息的机制提供新的见解。

Jun, 2024

从脑活动中解码高分辨率图像的对比、关注和扩散

介绍了一个两阶段的 fMRI 表示学习框架，通过在预处理阶段使用 Double-contrastive Mask Auto-encoder 降噪，并在第二阶段利用图像自动编码器的指导来调整特征学习者，以关注对于视觉重建最有信息的神经激活模式。使用这种优化后的 fMRI 特征学习者条件下的潜在扩散模型重构图像刺激，实验结果证明该模型在生成高分辨率和语义准确的图像方面的优越性，50 种不同目标的情境下，top-1 语义分类的准确率比先前最先进的方法提高了 39.34％。

May, 2023

使用前馈 Transformer 进行序列到序列歌唱合成

提出了一种基于 Transformer 模型的序列到序列歌曲合成器，使用自身注意力机制结合初始的音长模型来准确合成出作曲家想要的声音，相比于基于老师强制训练的自回归模型，具有更快的推理速度和更好的生成效果。

Oct, 2019

逆转听觉处理路径：基于 fMRI 的由粗到细的音频重建

基于人类听觉系统的层次化处理，从低级声学特征到高级语义理解的转变，我们引入了一种新的粗到细的音频重建方法。利用非侵入式功能性磁共振成像（fMRI）数据，我们的方法模拟了听觉处理的逆向路径。通过初始使用 CLAP 将 fMRI 数据粗略解码到低维语义空间，然后通过语义特征引导进行精细解码到高维 AudioMAE 潜空间。这些精细的神经特征用作通过潜在扩散模型（LDM）进行音频重建的条件。验证在三个公共 fMRI 数据集（Brain2Sound、Brain2Music 和 Brain2Speech）上，我们的粗到细解码方法相对于独立的精细解码方法具有明显优势，并展示了 FD、FAD 和 KL 等度量指标上的最先进性能。此外，在解码过程中使用语义提示时，当语义特征不佳时，我们提高了重建音频的质量。我们模型在各种刺激下的展示性能突出了作为通用脑 - 音频框架的潜力。这项研究对于理解人类听觉系统，在神经解码和音频重建方法方面推动了界限。

May, 2024

R&B -- 节奏与脑：通过人脑活动解码音乐的跨主体研究

本研究通过功能性磁共振成像（fMRI）测量的人脑活动，探究音乐是否能够从中解码。利用最新的数据集和预训练的计算模型，研究人员构建了神经数据和音乐刺激的潜在表示之间的映射关系，通过功能和解剖对齐技术解决了 fMRI 数据中低时间分辨率和信噪比的挑战。研究结果表明，通过我们的解码方法，我们能够以最先进的准确度识别音乐，并且建议神经基础的音乐检索系统可实现个性化推荐和治疗应用。

Jun, 2024

有监督音乐转录的不变性和数据增强

本文探讨了基于帧的音乐转录的各种模型，重点在于达到人类录音的最新的方法。本文中讨论的具有平移不变性的网络，结合了传统的滤波器和卷积神经网络，在 2017 年 MIREX 多基频估计评估测试中成为最佳性能模型。本类模型在 log 频率域中共享参数，利用音乐的频率不变性来减少模型参数数量并避免对训练数据的过度拟合。本文中的所有模型都是通过 MusicNet 数据集中具有标记的数据进行监督训练的，并通过随机保持标签的音调变换进行增强。

Nov, 2017