Nov, 2020

利用自监督预训练的声学和语言特征进行连续语音情感识别

TL;DR本文研究音频和文本的预训练提取特征方法,使用 wav2vec 和 camemBERT 模型进行连续情感识别任务,同时采用 SEWA 数据集,证明 wav2vec 和 BERT 预训练特征的联合使用在处理连续 SER 任务中表现非常合适。通过实验证明,新方法的 CCC 值达到 0.825,而传统的 MFCC 和 word2vec 仅为 0.592。