May, 2024

病理语音检测的自监督学习

TL;DR语音产生是一个复杂的现象,通过思维加工、运动规划和发音运动的执行,大脑协调一系列过程。然而,这些多种过程的复杂执行容易受到各种神经退行性病理性言语障碍的影响和干扰,如帕金森病,导致话语障碍、运动障碍等情况。这些障碍导致异常的言语模式和不清晰的表达。为了解决这些挑战,已提出了几种自动病理性言语检测方法,主要侧重于输入表示和分类器的应用。由于数据有限,检测的性能仍然不甚理想。自我监督学习嵌入,如 wav2vec2 及其多语言版本,被认为是提高性能的有希望途径。这些嵌入利用自我监督学习技术从音频数据中提取丰富的表征,从而为解决标签数据稀缺性所带来的限制提供了潜在的解决方案。