Feb, 2024

使用全卷积神经网络进行非固定长度语音的情感分析

TL;DR提出了一种情感分析方法,能够接受任意长度的音频,使用 Mel spectrogram 和 Mel Frequency Cepstral Coefficients 作为音频描述方法,并提出了一种全卷积神经网络架构作为分类器。通过使用 EMODB,RAVDESS 和 TESS 这三个知名数据集对结果进行了验证,结果令人满意,超过了现有方法的水平。由于该方法允许分析任意大小的音频,因此可以实时进行情感分析,对诸如呼叫中心、医疗咨询或金融经纪等广泛应用领域非常有意义。