Jul, 2024

2024 年 MSP-Podcast SER 挑战: Ventoux 多模自监督学习下的语音情绪识别

TL;DR本研究详细介绍了我们在 2024 年 MSP-Podcast 语音情感识别 (SER) 挑战赛中的参赛作品。我们专注于任务 1,该任务涉及使用 MSP-Podcast 数据集对八种情感状态进行分类。我们采用了一种集成模型的方法,每个模型都独立训练,然后使用支持向量机 (SVM) 分类器在评分层面上进行融合。我们采用了自监督学习 (Self-Supervised Learning, SSL) 在不同的模态上进行微调,包括仅使用语音、仅使用文本以及语音和文本相结合。这种联合训练方法旨在提高系统对情感状态的准确分类能力。因此,该系统在开发集上取得了 0.35% 的 F1 宏平均。