Jun, 2024

优化多重口吃语音分类:利用 Whisper 的编码器实现自动评估中高效参数减少

TL;DR通过使用先进的语音识别模型 Whisper 以及 6 层编码器的不同层冻结策略,本研究提出了一种计算高效的模型配置来更有效地对多发性口吃语音进行自动分类,取得了显著的性能,同时发现最后一个编码器层在辨别口吃性不流畅语音方面的贡献,使模型适用于多种方言和语言。