深度音频嵌入在音乐情感识别中的比较与分析

AAAIApr, 2021

深度音频嵌入在音乐情感识别中的比较与分析

Comparison and Analysis of Deep Audio Embeddings for Music Emotion Recognition

Eunjeong Koh, Shlomo Dubnov

TL;DR本文研究深度音频嵌入技术对于音乐情感识别领域的应用，探讨了 L3-Net 和 VGGish 等深度音频嵌入方法在情感识别上的表现，结果表明这些方法可有效提高基线情感识别模型的性能，且不需要人工专家工程。

Abstract

emotion is a complicated notion present in music that is hard to capture even with fine-tuned feature engineering. In this paper, we investigate the utility of state-of-the-art pre-trained →

emotion music deep audio embedding music emotion recognition multi-class classifiers

发现论文，激发创造

音乐多模态：从高级音频特征和歌词预测音乐情感

本文旨在研究多模态方法是否能在高级歌曲特征和歌词上比单一模态更好地预测歌曲情感得分，结果显示多模态特征在预测愉悦度时比纯音频好，其中 5 种高级歌曲特征对模型性能的贡献最大。

Feb, 2023

使用预训练的深度视觉模型进行情感语音识别

本文提出使用视觉深度神经网络模型进行情感语音识别的新方法，通过使用预先训练的计算机视觉深度模型的迁移学习能力，将声学特征转化为图像进行识别，并在 Berlin EMO-DB 数据集上进行实验，取得了新的最佳效果。

Apr, 2022

歌曲情感识别：音频特征与人工神经网络性能比较

通过提取音频特征使用数据驱动模型来识别毫无伴奏的歌曲中所表达的情感。

Sep, 2022

基于深度神经网络的音频和歌词的音乐情感检测

本研究考虑了基于音频信号和歌词的多模态音乐情绪预测任务，复现传统特征工程方法的基础上提出了一种基于深度学习的新模型，证明了新方法相较于传统模型更擅长于唤起用户的注意，而在情感预测上两种方法表现相当。此外，我们还比较了不同的融合方法，在同时优化各单模态模型时取得了较大的提升，并向公众发布部分数据以供参考。

Sep, 2018

使用深度学习框架评估语音情感识别的原始波形

通过直接利用六个不同数据集的原始音频文件进行训练，本研究提出了一种模型用于识别情感，没有进行特征提取阶段。该模型通过支持向量机、决策树、朴素贝叶斯、随机森林等机器学习算法，以及集成学习和深度学习技术进行评估，并与现有的方法进行比较。实验证明，使用原始音频文件的 CNN 模型在 TESS+RAVDESS 数据集上取得了 95.86% 的准确率，从而成为了新的最先进方法。在说话人无关的音频分类问题中，该模型在 EMO-DB，RAVDESS，TESS 和 SAVEE 数据集上分别取得了 90.34%，90.42%，99.48% 和 85.76% 的准确率。

Jul, 2023

基于深度神经网络的端到端多模态情感识别

本研究提出了一种运用视觉和听觉模态的情感识别系统，其通过深度卷积神经网络提取语音特征，通过 50 层的深度残差网络提取视觉特征，并运用长短时记忆网络进行机器学习算法，通过对 AVEC 2016 情感识别研究挑战的 RECOLA 数据库的自发和自然情绪的预测，明显优于传统的以听觉和视觉手工制作特征为基础的方法。

Apr, 2017

使用 Wav2vec 2.0 嵌入进行语音情感识别

本文提出一种基于迁移学习的语音情感识别方法，将从预训练的 wav2vec 2.0 模型中提取的特征使用简单的神经网络模型进行建模，并使用可训练的权重从多层模型中组合输出，在 IEMOCAP 和 RAVDESS 两个情感数据库上的评价表明，在情感识别性能上优于现有文献中的结果。

Apr, 2021

基于深度学习的情感识别数据增强技术比较研究

本文对情感识别中的流行深度学习方法进行了全面评估，发现语音信号中的长距离依赖对情感识别至关重要，而速率变换是获得最稳健性能提升的最佳数据扩增技术之一。

Nov, 2022

多模态语音情感识别和歧义解析

本研究采用基于特征工程的方法来解决语音情感识别的问题，并通过提取八个手工特征，将问题形式化为多分类问题。通过比较传统机器学习分类器和深度学习模型的表现，我们表明轻量级的基于机器学习的模型在使用少量手工特征时能够实现与当前的深度学习方法相媲美的性能。

Apr, 2019

音乐推荐的深度内容 - 用户嵌入模型

本文提出了一种深度内容 - 用户嵌入模型，它采用混合方法解决了冷启动问题，并考虑了不同模式数据的联合，同时在音乐推荐和音乐自动标记任务中，表现出了明显的优势。

Jul, 2018