歌曲情感识别:音频特征与人工神经网络性能比较
本文研究深度音频嵌入技术对于音乐情感识别领域的应用,探讨了 L3-Net 和 VGGish 等深度音频嵌入方法在情感识别上的表现,结果表明这些方法可有效提高基线情感识别模型的性能,且不需要人工专家工程。
Apr, 2021
本研究探讨了应用循环神经网络识别音乐中传达的情感,旨在通过将音乐调整到适合听众的情感状态,增强音乐推荐系统并支持治疗干预。我们使用 Russell 的情感象限将音乐分类为四个不同的情感区域,并开发了能够准确预测这些类别的模型。我们的方法涉及使用 Librosa 提取全面的音频特征,并应用各种循环神经网络架构,包括标准 RNN,双向 RNN 和 LSTM 网络。初步实验使用包含 900 个已标记情感象限的音频片段数据集进行,我们将神经网络模型的性能与一组基准分类器进行比较,并分析其在捕捉音乐表达中固有的时间动态方面的有效性。结果表明,在较小的数据集中,较简单的 RNN 架构的表现可能与更复杂的模型相当甚至更优。我们还在较大的数据集上应用了以下实验:一是基于我们原始数据集进行的增强,另一是来自其他来源。这项研究不仅增进了我们对音乐情感影响的理解,还展示了神经网络在创建更个性化和情感共鸣的音乐推荐和治疗系统方面的潜力。
May, 2024
本研究考虑了基于音频信号和歌词的多模态音乐情绪预测任务,复现传统特征工程方法的基础上提出了一种基于深度学习的新模型,证明了新方法相较于传统模型更擅长于唤起用户的注意,而在情感预测上两种方法表现相当。此外,我们还比较了不同的融合方法,在同时优化各单模态模型时取得了较大的提升,并向公众发布部分数据以供参考。
Sep, 2018
本文旨在研究多模态方法是否能在高级歌曲特征和歌词上比单一模态更好地预测歌曲情感得分,结果显示多模态特征在预测愉悦度时比纯音频好,其中 5 种高级歌曲特征对模型性能的贡献最大。
Feb, 2023
该研究使用 MATLAB 函数与机器学习模型分析人类语音中的声音特征,如谐波、周期性、频谱形状等,实现人类情感的识别。通过使用多个数据集进行训练,并对比测试,发现该模型优于现有类似作品。
Apr, 2023
使用卷积神经网络(CNN) 对音频录音进行识别和情感标记,通过机器学习方法评估表情识别模型,并关注精确度、召回率和 F1 得分,以提高交流意图的识别能力。
Jun, 2024
本研究采用基于特征工程的方法来解决语音情感识别的问题,并通过提取八个手工特征,将问题形式化为多分类问题。通过比较传统机器学习分类器和深度学习模型的表现,我们表明轻量级的基于机器学习的模型在使用少量手工特征时能够实现与当前的深度学习方法相媲美的性能。
Apr, 2019
我们介绍了一种使用 AI 工具来操纵歌曲情感内容的新方法。我们的目标是在尽可能保持原有旋律的情况下实现所需情感。为此,我们创建了一个交互式流程,能够将输入的歌曲转换为与之截然相反的情感,并通过 Russel 的 Circumplex 模型对结果进行可视化。我们的方法是对现有音乐情感内容进行语义操作的概念验证,这是一个旨在修改现有音乐情感内容的新领域。我们设计了一个深度学习模型,能够评估我们对关键部分、SoundFont 乐器设备以及其他音乐特征的修改准确性。我们的模型准确度与 4Q Emotion 数据集上的最新技术水平相符。通过进一步改进,这项研究可能为按需定制音乐生成、现有作品的自动混音以及情感进展调整的音乐播放列表做出贡献。
Jun, 2024
本研究提出了一种运用视觉和听觉模态的情感识别系统,其通过深度卷积神经网络提取语音特征,通过 50 层的深度残差网络提取视觉特征,并运用长短时记忆网络进行机器学习算法,通过对 AVEC 2016 情感识别研究挑战的 RECOLA 数据库的自发和自然情绪的预测,明显优于传统的以听觉和视觉手工制作特征为基础的方法。
Apr, 2017
本文提出了一种新的基于孪生网络的 mel 频谱学习方法,用于从 CREMA-D 数据集中的 wav 形式的语音记录中学习情感,所提出的模型使用对数 mel - 频谱图作为特征,mels 数量为 64,在情感语音识别的问题上,相对于其他方法,本方法所需的训练时间更短。
Jun, 2022