- R&B -- 节奏与脑:通过人脑活动解码音乐的跨主体研究
本研究通过功能性磁共振成像(fMRI)测量的人脑活动,探究音乐是否能够从中解码。利用最新的数据集和预训练的计算模型,研究人员构建了神经数据和音乐刺激的潜在表示之间的映射关系,通过功能和解剖对齐技术解决了 fMRI 数据中低时间分辨率和信噪比 - 使用少样本推理检测合成歌词
通过对高质量合成歌词进行综合定量评估,我们基于 LIM2 模型构建的最佳 few-shot 检测器,在区分人工创作和机器生成的内容方面超越了样式和统计方法,并且对新艺术家和模型具有良好的泛化能力,同时有效地检测后期生成的改写。
- 让诗歌击中节奏:使用基于字节的 Transformer 进行节拍对齐的诗歌生成
通过字节为基础的语言模型,本研究探索了诗歌和音乐的交叉点,着重研究了节奏模式,以创造与诗歌上下文中的特定节奏模式相匹配的词语。结果表明,在保持语义连贯性的同时,节奏高度对齐。未来的工作将旨在提高该模型创作完整的节奏对齐诗歌的能力。
- 音乐情感操控 -- 基于深度学习的交互视觉方法
我们介绍了一种使用 AI 工具来操纵歌曲情感内容的新方法。我们的目标是在尽可能保持原有旋律的情况下实现所需情感。为此,我们创建了一个交互式流程,能够将输入的歌曲转换为与之截然相反的情感,并通过 Russel 的 Circumplex 模型对 - 测量和预测音乐作品记忆力的数据集和基线模型
通过新颖的互动实验过程收集可靠的易记性标签,我们用解释性特征和音频频谱作为输入训练基线模型,探索了用数据驱动的深度学习方法研究音乐易记性的新领域,证明有限的数据条件下预测音乐易记性是可能的,而某些内在元素如高愉悦、高唤醒度和较快节奏有助于产 - 基于面部情绪识别的音乐推荐
通过集成情感识别、音乐推荐和可解释人工智能,利用 GRAD-CAM 的方法可以提高用户体验。在情感分类上,该系统的准确率达到 82%,并利用 GRAD-CAM 提供预测的解释,使用户能够理解系统推荐背后的原因。该论文提出的方法利用 ResN - LM2D: 歌词与音乐驱动的舞蹈合成
通过将音乐和歌词作为条件,在一次扩散生成步骤中创建与歌词和音乐相匹配的逼真且多样化的舞蹈,通过使用多模态扩散模型和一致性蒸馏构建了新颖的概率架构 LM2D,并引入涵盖音乐和歌词的第一个 3D 舞蹈动作数据集,该模型的结果经过客观度量和人类评 - 图灵与人工伙伴一同演奏钢琴
音乐是一种固有的社交活动,设计人工合作伙伴以展现类似社交体验的进展有限。研究表明,采用生成模型的神经网络架构适合生成音乐谱,但社交音乐演奏涉及超越乐谱的要素,需要与其他音乐家的想法相补和正确掌握节奏。研究使用一个经过训练的变分自动编码器神经 - 评估合创性使用总体信息流
通过量化评估音乐合创过程中的信息流,本文旨在创造一种基于总信息流的度量,即创作音乐过程的 “好坏” 指示。通过使用预训练的生成模型作为熵估计器计算信息流的方法,我们展示了如何通过定性研究验证了我们的方法与人类感知的匹配性。
- 多技术顺序信息一致性在变化环境中的动态视觉地点识别
多顺序信息一致性 (多音乐) 是一个利用顺序信息在在线每帧基础上选择最具连贯性技术的 VPR 系统,通过分析各技术的前几个匹配候选的帧间连续性,然后直接进行比较选择当前查询图像的最佳技术,该系统在不同基准数据集上提高了整体 VPR 性能,避 - 波斯钢琴语料库:以达斯塔为考虑因素的基于乐器特征的数据收集
我们通过采用基于乐器的方法来解决数据稀缺问题,提供了一个与波斯式钢琴相关的完整语料库,其中包含有关波斯音乐调式(Dastgah)的相关标签和综合元数据,可在各种热门研究领域中使用。我们收集了来自 2022 年波斯式钢琴作品的特征,并提供给研 - 音乐形式生成
该论文介绍了一种生成结构化的、任意长度的音乐作品的方法,其中利用条件性生成模型创建了音乐片段,并通过转换连接这些片段,然后利用大型语言模型提出音乐形式建议。
- 音乐和歌词驱动的舞蹈合成
介绍了一个新的多模态数据集 JustLMD,其中包括舞蹈动作、音乐和歌词的三元信息,并展示了一种基于跨模态扩散的网络,用于根据音乐和歌词生成 3D 舞蹈动作。
- MDSC:评估音乐与之间的风格一致性
MDSC 是一种评估指标,用于衡量舞蹈动作和音乐匹配程度。通过预训练音乐和动作编码器,以及在联合空间中最小化簇内距离和最大化簇间距离的方式,将舞蹈动作和音乐嵌入进行映射和对齐,并通过测量簇内距离、簇间距离以及两者之间的比例来评估这一度量标准 - 人机交互中利用情绪诱发的背景音乐
音乐对心情有影响,而心情对情绪和认知加工以及决策产生影响。研究发现,了解人们在行动时所听的音乐对于预测其行为是一个重要特征,但迄今为止还没有明确证据表明机器人能够通过考虑人们所听的音乐来改善其与人互动的决策能力。本研究通过实验结果填补了这一 - PitchNet: 一种用于音高估计的全卷积神经网络
在音乐和声音处理领域中,音高提取起着关键作用。本研究介绍了 “PitchNet”,一种专为从人类歌唱声音中提取音高而量身定制的卷积神经网络,包括 a cappella 演唱。将自相关与深度学习技术融合,PitchNet 旨在优化音高检测的准 - MM基于歌词的孟加拉歌曲情绪分类
本研究使用自然语言处理和 Bert 算法对 4000 首孟加拉歌曲的歌词进行分析,将其分为快乐、悲伤、浪漫和放松四种情绪,从而实现了歌曲情绪的多类分类,使音乐与人们的情感更加契合。
- 人工智能引起的艺术实践转变
人工智能所产生的大量内容正在引发一场文化转型,在此过程中,角色发生了变化,价值观发生了转变,并且传统面临新的挑战。
- ChatGPT 如何评价声音语义?
本研究探究基于最新的大型语言模型 ChatGPT 对于 20 种语义尺度的音乐乐器声音的评价。ChatGPT 显示出与人类评价的一定程度的一致性,但却在相当大程度上表现出人类评价所没有的内部变化。
- 音乐结构的深度分析作为一个自组织网络
本文介绍了一种将音乐编码为文本的算法,并通过计算音乐中音调、时间和音量之间的相关性生成了 Essential Element Network(EEN)。通过优化 EEN 来生成 Zipf 定律从而生成并将语义关系联系作为单词。我们将这些编码