Mar, 2025

低语者识别:利用预训练多语言变换器实现稳健的说话人嵌入

TL;DR本研究针对多语言环境中的说话人识别问题,提出了一种新颖的WSI框架,利用在丰富多语言数据上预训练的Whisper自动语音识别模型的编码器,通过联合损失优化策略生成稳健的说话人嵌入。研究发现,该方法在多种语言和录音条件下优于现有的最新基准,提高了识别性能,尤其在非英语语言中的表现显著。