使用循环神经网络进行音乐情感预测

May, 2024

使用循环神经网络进行音乐情感预测

Music Emotion Prediction Using Recurrent Neural Networks

Xinyu Chang, Xiangyu Zhang, Haoruo Zhang, Yulu Ran

TL;DR本研究探讨了应用循环神经网络识别音乐中传达的情感，旨在通过将音乐调整到适合听众的情感状态，增强音乐推荐系统并支持治疗干预。我们使用 Russell 的情感象限将音乐分类为四个不同的情感区域，并开发了能够准确预测这些类别的模型。我们的方法涉及使用 Librosa 提取全面的音频特征，并应用各种循环神经网络架构，包括标准 RNN，双向 RNN 和 LSTM 网络。初步实验使用包含 900 个已标记情感象限的音频片段数据集进行，我们将神经网络模型的性能与一组基准分类器进行比较，并分析其在捕捉音乐表达中固有的时间动态方面的有效性。结果表明，在较小的数据集中，较简单的 RNN 架构的表现可能与更复杂的模型相当甚至更优。我们还在较大的数据集上应用了以下实验：一是基于我们原始数据集进行的增强，另一是来自其他来源。这项研究不仅增进了我们对音乐情感影响的理解，还展示了神经网络在创建更个性化和情感共鸣的音乐推荐和治疗系统方面的潜力。

Abstract

This study explores the application of recurrent neural networks to recognize emotions conveyed in music, aiming to enhance music recommendation systems and support therapeutic interventions by tailoring music to

recurrent neural networks music recognition emotion categorization neural network models music recommendation

发现论文，激发创造

歌曲情感识别：音频特征与人工神经网络性能比较

通过提取音频特征使用数据驱动模型来识别毫无伴奏的歌曲中所表达的情感。

Sep, 2022

2014 年的巴赫：用循环神经网络进行音乐创作

提出了一种计算机音乐作曲框架，利用鲁棒传播 (RProp) 和长短期记忆 (LSTM) 循环神经网络，成功展示 LSTM 网络适当学习音乐的结构和特征，同时显示利用 RProp 预测现有音乐的结果优于 BPTT。

Dec, 2014

用循环神经网络从语音中识别情感

本文提出了一种利用深度递归神经网络来识别语音情感的方法，通过对小语音时间间隔内计算的一系列声学特征进行训练，同时采用特殊的概率性 CTC 损失函数来考虑包含情感和中性部分的长语音片段，在与最近进展的比较和人类表现的对比中展示了该方法的高质量。

Jan, 2017

基于深度神经网络的端到端多模态情感识别

本研究提出了一种运用视觉和听觉模态的情感识别系统，其通过深度卷积神经网络提取语音特征，通过 50 层的深度残差网络提取视觉特征，并运用长短时记忆网络进行机器学习算法，通过对 AVEC 2016 情感识别研究挑战的 RECOLA 数据库的自发和自然情绪的预测，明显优于传统的以听觉和视觉手工制作特征为基础的方法。

Apr, 2017

卷积循环神经网络用于音乐分类

本研究引入了一种卷积循环神经网络（CRNN）进行音乐标记。研究中对比了使用 CNN 的三种不同结构来进行音乐标记的性能和每个样本的训练时间，并表明相对其他模型，CRNN 具有更好的效果和更少的参数和更快的训练时间，表明其混合结构在音乐特征提取和特征总结中的有效性。

Sep, 2016

音乐的深度学习

本研究尝试使用深度神经网络建立生成模型，以生成既有和声和旋律，并且足以通过人类作曲的音乐，并利用端到端学习和生成的方法。

Jun, 2016

利用语音和文本的多模态语音情感识别

本文提出了一种深度双重循环编码器模型，利用语音和文本数据进行机器情感识别，该模型表现更优，实验结果显示，当将该模型应用于 IEMOCAP 数据集时，在将数据分配到四个情感类别（愤怒，高兴，悲伤和中性）方面，准确率在 68.8％至 71.8％之间。

Oct, 2018

深度神经网络对视频数据情绪识别的改进

本文通过使用卷积神经网络和循环神经网络来识别视频数据中的情感，分析两种神经网络对系统性能的贡献，并在实验中实现了优于基线和其他竞争方法的表现。

Feb, 2016

使用 LSTM 生成音乐

使用 LSTM 网络在音乐生成中得到了初步的应用，该方法是一种在深度学习中具有广泛应用的序列建模方法。

Mar, 2022

基于面部情绪识别的音乐推荐

通过集成情感识别、音乐推荐和可解释人工智能，利用 GRAD-CAM 的方法可以提高用户体验。在情感分类上，该系统的准确率达到 82％，并利用 GRAD-CAM 提供预测的解释，使用户能够理解系统推荐背后的原因。该论文提出的方法利用 ResNet50 模型、面部表情识别数据集和真实用户数据集进行训练，为面部情感检测提供了强大而可解释的解决方案。

Apr, 2024