May, 2024

使用自监督预训练改进从 ECoG 中的语音解码

TL;DR近期关于颅内脑机接口的研究表明,通过将问题视为监督学习的一个实例并使用深度神经网络将神经活动映射到文本,口述语言可以被高精度地解码。然而,这些网络以需要大量标记数据作为代价,这对于从人类患者获取到的侵入性神经记录来说特别繁重。通过改造波形向量编码器 (wav2vec) 并利用其他患者的数据,我们证明了可以利用外部数据来改善解码,降低数据收集的负担。最佳情况下,wav2vec 的表示相较原始数据可以将单词错误率提高超过 50%。