Apr, 2023

预训练语音和音频嵌入的情感识别比较研究

TL;DR这项工作对来自八个语音预训练模型(wav2vec 2.0,data2vec,wavLM,UniSpeech-SAT,wav2clip,YAMNet,x-vector,ECAPA)的嵌入进行了比较分析。对四个语音情感数据集进行了广泛的实证分析,结果表明,最佳表现是由从训练说话者识别的 PTMs 获得的嵌入训练的算法实现的,这表明从演讲者识别 PTMs 提取嵌入的最佳性能很可能是由于模型在演讲者识别训练期间获取了有关许多语音特征(例如语调,口音,音高等)的信息。