多模态舞蹈即兴认知的组件注意力网络
该论文提出了一种基于自回归生成模型的新方法 DanceNet,以音乐的风格、节奏和旋律为控制信号生成具有高度真实感和多样性的 3D 舞蹈动作,并通过专业舞者捕捉了多组同步的音乐舞蹈配对数据集以提高模型性能,实验结果表明所提出的方法达到了最先进的效果。
Feb, 2020
本研究提出了一种基于 Transformer 模型,结合之前姿势以及音乐情境来建模未来舞蹈动作分布的概率自回归模型,同时使用了包括专业舞者和业余舞者的当前最大的 3D 舞蹈动作数据集,通过物体评价和用户调查对比了两个基准模型,并表明要生成与音乐相匹配的有趣,多样和逼真的舞蹈,既需要模型具备建模概率分布的能力,又需要能够关注大范围的运动和音乐情境。
Jun, 2021
本文提出了一种称为多模态注意力的方法,可以针对图像特征、运动特征和音频特征进行选择性关注,以促进视频描述的多模态信息融合,并在 Youtube2Text 数据集上取得了竞争状态 - of-the-art 的结果。
Jan, 2017
我们提出了一个统一的框架,能够生成高质量的舞蹈动作并支持多模态控制,包括流派控制,语义控制和空间控制,实验证明所提出的舞蹈生成框架在动作质量和可控性方面优于现有的方法。
Jan, 2024
本文提出了一种使用卷积注意网络学习语音和文本数据之间隐藏表示的新方法,较之之前的表现更好,能更好地识别出 CMU-MOSEI 数据集中包含的来自语音和文本数据的情感。
May, 2018
本研究旨在设计一种模仿人类编舞过程的两阶段音乐到舞蹈合成框架 ChoreoNet,通过构建数据集并设计 CAU 预测模型和一个时间空间修补模型,实现音乐到舞蹈的合成,并通过用户研究评估该方法的性能。
Sep, 2020
本研究采用凸优化的 EDA 方法将情绪识别中所需的动态和稳态特征分离,提出了一种融合了个体 EDA 特征和外部音乐特征的一维残余时间和通道注意力网络的多模态框架,证明其比现有模型更有效。
Aug, 2020
本文介绍了一个基于多通道注意力图卷积网络(MAGCN)的多模态情感分析框架,它将情感知识融合到跨模态交互学习中,并在多个数据集上实现了竞争性表现。
Jan, 2022
本研究聚焦于使用图卷积网络(GCNs)的多媒体推荐系统,旨在更有效地利用多模态特征以准确捕捉用户对项目的偏好。通过提出模态包容 GCN(MeGCN)和目标感知注意力等两个核心思想,我们的实验表明 MONET 在七种最先进的竞争者中非常优越(在召回率 @20 方面比最佳竞争者高出 30.32%),并证明了 MONET 的两个核心思想的有效性。
Dec, 2023