Mar, 2025
低语者识别:利用预训练多语言变换器实现稳健的说话人嵌入
Whisper Speaker Identification: Leveraging Pre-Trained Multilingual
Transformers for Robust Speaker Embeddings
TL;DR本研究针对多语言环境中的说话人识别问题,提出了一种新颖的WSI框架,利用在丰富多语言数据上预训练的Whisper自动语音识别模型的编码器,通过联合损失优化策略生成稳健的说话人嵌入。研究发现,该方法在多种语言和录音条件下优于现有的最新基准,提高了识别性能,尤其在非英语语言中的表现显著。