Jan, 2024

基于中间 ASR 特征和人类记忆模型的面向听障用户的非侵入式语音可懂度预测

TL;DR利用神经网络和先前训练的自监督和弱监督模型的中间层特征表示,结合人类记忆的示例驱动型心理模型,预测助听器用户的人类可懂度评级,并在不同任务和训练数据中的普通听众中找到相较于基础系统 28.7 的均方根误差 25.3 的显着性能提升。