Jun, 2024

多语言不可见说话人情感识别的探索:在多任务学习中利用共注意线索

TL;DR本研究关注于多语言语音情感识别中未见过的说话者,引入了 CAMuLeNet 这一新颖的架构,通过共同注意力融合和多任务学习解决了这一问题,并在多个基准数据集上对预训练的 Whisper、HuBERT、Wav2Vec2.0 和 WavLM 进行基于说话者排除的交叉验证,同时发布了一个针对印地语的新颖数据集 BhavVani。根据交叉验证策略,CAMuLeNet 在未见过的说话者上显示出平均约 8% 的改进。