Dec, 2023

脑到文本解码中的数据污染问题

TL;DR非侵入性的认知信号解码为自然语言一直是建立实用脑 - 计算机接口(BCIs)的目标。最近的重要里程碑成功地将认知信号如功能磁共振成像(fMRI)和脑电图(EEG)在开放词汇设置下解码为文本。然而,如何在认知信号解码任务中拆分训练、验证和测试数据集仍然存在争议。本文对当前数据集拆分方法进行了系统分析,发现数据污染的存在大大夸大了模型性能。为了消除数据污染的影响和公平评估不同模型的泛化能力,我们提出了一种新的分裂方法用于不同类型的认知数据集(例如 fMRI,EEG)。我们还测试了在提出的数据集分裂模式下的 SOTA 脑 - 文本解码模型的性能作为后续研究的基准。