Oct, 2019

使用双序列 LSTM 架构的语音情感识别

TL;DR提出了一种新的双层模型,通过使用来自原始音频信号的 MFCC 特征和 mel-spectrograms 预测情感,其中一个标准 LSTM 处理 MFCC 特征,而一个新的双序列 LSTM 架构同时处理两个 mel-spectrograms,最终将输出平均,实现了在情感识别中的 6% 的提高。