使用状态空间模型建模歌词情感动态

ACLOct, 2022

使用状态空间模型建模歌词情感动态

Modelling Emotion Dynamics in Song Lyrics with State Space Models

Yingjin Song, Daniel Beck

TL;DR本文提出了一种基于状态空间模型 (SSM) 的方法，通过组合句子级情感预测器和期望最大化 (EM) 过程来为每个歌曲生成完整的情感动态，该方法不需要任何注释过的歌曲，因此非常适合于有限的训练数据情境，并可显著提高基线模型的性能。

Abstract

Most previous work in music emotion recognition assumes a single or a few song-level labels for the whole song. While it is known that different emotions can vary in intensity within a song, annotated data for this setup is scarce and difficult to obtain. In this work, we propose a met

music emotion recognition emotion dynamics prediction state space model (ssm)sentence-level predictor limited training data

发现论文，激发创造

音乐多模态：从高级音频特征和歌词预测音乐情感

本文旨在研究多模态方法是否能在高级歌曲特征和歌词上比单一模态更好地预测歌曲情感得分，结果显示多模态特征在预测愉悦度时比纯音频好，其中 5 种高级歌曲特征对模型性能的贡献最大。

Feb, 2023

在复杂故事中建模情感：斯坦福情感叙事数据集

本文通过时间序列建模和高质量数据集的采集来建立动态情感刺激的模型，在此基础上介绍第一版本的斯坦福情感叙述数据集（SENDv1）。该数据集是自我节奏、非手稿的丰富、多模态视频，标注情感质量随时间的变化，为情感计算的当代时间序列方法提供了挑战，并通过多种基准和最先进的建模方法展示了良好的表现。

Nov, 2019

基于 Transformer 的歌词情感识别方法

本研究使用了基于 Transformer 的 XLNet 模型，首次探索结合歌词进行音乐情感识别。实验表明该方法的性能优于现有基于其他特征的方法。本研究为情感音乐播放列表生成和音乐推荐系统的改进等提供了重要的启示。

Jan, 2021

在电影场景中学习情绪和心理状态

使用 EmoTx，一个多模态变压器架构，结合视频、多种角色和对话语句进行联合预测，以预测场景和每个角色的多样且多标签情感。在最频繁出现的 10 个和 25 个标签上进行实验，并将 181 个标签映射到 26 个聚类。消融实验和与现有情感识别方法的比较表明，EmoTx 是有效的。对 EmoTx 的自我注意力分数进行分析表明，表达情感通常会关注角色令牌，而其他心理状态则依赖于视频和对话线索。

Apr, 2023

频谱状态空间模型

本文研究具有长距离依赖的预测任务的序列建模，提出了一种基于谱滤波算法学习线性动力系统的状态空间模型的新形式。这一提议产生了一种名为谱状态空间模型的新型序列预测架构，通过对合成动力系统进行评估，支持了谱滤波在需要非常长远记忆的任务中的理论优势。

Dec, 2023

基于歌词的带有情感标签的符号音乐数据集 Emotion4MIDI

我们提出了一个新的大规模情感标记的符号音乐数据集，该数据集包括 12k 首 MIDI 音乐。通过在 GoEmotions 数据集上训练情感分类模型，我们实现了半基线模型大小的先进结果。然后，我们将这些模型应用到两个大规模 MIDI 数据集的歌词上。我们的数据集涵盖了广泛的细粒度情感，为探究音乐与情感之间的联系以及基于特定情感生成音乐的模型的发展提供了宝贵的资源。我们的推断代码、训练模型和数据集在网上可获得。

Jul, 2023

歌词和声学对情绪协作理解的贡献

本研究通过使用 Spotify 音乐流媒体平台用户播放列表推导出的情绪和近一百万首歌曲的数据集，利用基于 transformers 的最先进的自然语言处理模型，研究了歌词和情绪之间的关联。研究表明，预训练的 transformer-based 语言模型在零 - shot 场景下能够强大地捕捉到歌曲情绪的关联。此外，通过比较使用歌词和使用声学特征的模型的预测，我们观察到，相对于声学，歌词对情绪的预测具有不同的重要性，从而验证了模型是否捕捉了人类对歌词和声学的情绪相关性的相同信息。

May, 2022

基于连续情感条件的符号音乐生成

本篇论文提出了一种新的方法用于生成多乐器符号音乐并能获得更高的情感表达，该方法利用了一个基于变换器的连续情感标签，同时，还提供了一个带有情感标签的大规模符号音乐数据集，并通过音符预测精度和情感平面的回归任务进行了数量化评估，结果表明我们的方法超越了当前技术水平。

Mar, 2022

状态空间模型的表达能力：形式语言视角

基于线性状态空间模型的循环模型在语言建模方面表现出色，与变压器竞争力强，但对此类模型的原理能力了解甚少，因此我们提出了一项理论研究，比较了这种模型与变压器和传统循环神经网络的能力，发现它们有重叠但有区别的优势。

May, 2024

自动音乐情感识别的新多标签系统

本研究从机器学习角度分析了 Geneva Emotional Music Scale 9 在 Emotify 音乐数据集中的适用性，探讨了情感通过音乐表达感染的自动识别。

May, 2019