脑到文本解码中的数据污染问题

Dec, 2023

Data Contamination Issues in Brain-to-Text Decoding

Congchi Yin, Qian Yu, Zhiwei Fang, Jie He, Changping Peng...

TL;DR非侵入性的认知信号解码为自然语言一直是建立实用脑 - 计算机接口（BCIs）的目标。最近的重要里程碑成功地将认知信号如功能磁共振成像（fMRI）和脑电图（EEG）在开放词汇设置下解码为文本。然而，如何在认知信号解码任务中拆分训练、验证和测试数据集仍然存在争议。本文对当前数据集拆分方法进行了系统分析，发现数据污染的存在大大夸大了模型性能。为了消除数据污染的影响和公平评估不同模型的泛化能力，我们提出了一种新的分裂方法用于不同类型的认知数据集（例如 fMRI，EEG）。我们还测试了在提出的数据集分裂模式下的 SOTA 脑 - 文本解码模型的性能作为后续研究的基准。

Abstract

Decoding non-invasive cognitive signals to natural language has long been the goal of building practical brain-computer interfaces (BCIs). Recent major milestones have successfully decoded cognitive signals like

non-invasive cognitive signals brain-computer interfaces dataset splitting methods data contamination brain-to-text decoding models

发现论文，激发创造

EEG2TEXT: EEG 预训练和多视角变压器下的开放词汇脑电图到文本解码

通过使用 EEG2TEXT 方法，借助 EEG 预训练和多视图变压器，能够从脑电图信号中提取更准确的开放词汇解码，并在绝对 BLEU 和 ROUGE 得分上超过现有基线方法高达 5%，显示出高性能开放词汇脑机接口与文本系统用于促进交流的巨大潜力。

May, 2024

解码神经信号为语音

在该论文中，我们首次探索了基于跨注意力的 “whisper” 模型，通过 MEG 信号直接生成文本，而无需教师强制，实现了令人印象深刻的 60.30 和 52.89 的 BLEU-1 得分，该论文还对有关神经解码任务的语音解码形成进行了全面的回顾。

Mar, 2024

深度表示学习用于开放词汇的脑电图到文本解码

使用预训练语言模型对无创脑机接口（BCI）通过脑电图（EEG）信号进行解码的潜力进行了研究，提出了一个具有先进表示学习方法的无创脑电记录的端到端深度学习框架，并使用新的评估指标验证了该框架在解码效果方面的优越性。

Nov, 2023

开放词汇电脑图文解码及零样本情感分类

本文介绍了一种对开放词汇的象限脑电图 (EEG)- 到 - 文本序列到序列解码和零样本句子情感分类的方法，并借助预训练语言模型 (例如 BART) 建立一个新的框架，该模型能够处理来自不同受试者和来源的数据，并证明了该模型可以一旦足够的数据可用，有望成为高性能的开放词汇脑到文本系统。

Dec, 2021

MAD：多对多 MEG 到文本解码

本研究提出了一种使用多重对齐框架将脑电信号转换为文本的新方法，通过在 MEG 信号中直接生成全新的文本，实现了令人印象深刻的 BLEU-1 得分，极大地超越了基线模型，显示出实现 BCI 研究的潜力。

Jun, 2024

从非侵入式脑记录中解码语音

通过对大量受试者进行对比学习，使用自我监督方法设计的神经网络可以从无创脑电图数据中有效识别自由自然语言，为实现从脑电图中实时解码自然语音处理提供了有前途的途径。

Aug, 2022

通过预训练对比度 EEG-Text 掩蔽自编码器的可转移表示增强 EEG 到文本解码

提出了一种新颖的 Contrastive EEG-Text Masked Autoencoder 模型，并借助预训练模块以及 EEG 流实现了 EEG 到文本的解码，实验结果表明在文本激发的 EEG 数据库上，该模型在 ROUGE-1 F1 和 BLEU-4 得分上分别超过现有技术 8.34％和 32.21％，这显示了该框架在大脑计算界面应用领域的潜力。

Feb, 2024

揭示思维：脑电信号解码成文本之进展综述

脑活动转化为文本的研究在近年来取得了显著的进展，许多研究人员致力于开发新模型将脑电信号解码为文本形式，但该领域仍面临许多挑战，需要进一步改进。该综述文章完整总结了脑电信号转化为文本的进展，包括该技术的成长、仍存在的问题、数据收集方法、信号处理步骤以及将这些信号转化为连贯文本的系统开发。通过解决这些方面，该综述旨在为广泛的用户群体开发更易接触和有效的脑机接口（BCI）技术做出贡献。

Apr, 2024

脑 - 文本解码可以提取多少字节？

通过使用基于信息的评估指标，本研究提出了两种方法来改进现有先进的连续文本解码器，展示了这些方法的相互配合可将脑解码性能提高 40% 以上，并通过实证研究证明脑到文本解码具有 Zipfian 幂律动力学特性，最终通过信息度量方法量化解码误差的主要来源并估算了基于 fMRI 的文本解码器的理想性能与当前模型的差距，得出进一步改进算法可以实现实用脑到文本解码器的结论。

May, 2024

UniCoRN: 统一认知信号重建 —— 桥接认知信号和人类语言

该研究通过 fMRI2text 任务，提出了一种可用于大脑计算机界面的任务，UniCoRN 编码器证明了从 fMRI 和 EEG 这两种认知信号中重建连续的时间序列的可行性和有效性。

Jul, 2023