音乐手势用于视听分离

CVPRApr, 2020

Music Gesture for Visual Sound Separation

Chuang Gan, Deng Huang, Hang Zhao, Joshua B. Tenenbaum, Antonio Torralba

TL;DR本研究基于 Music Gesture 模型，提出了一种基于关键点的结构化表示法来建模音乐家演奏的身体和手指运动，并在视觉和音频结合分离任务中实现了较强的音频分离效果。

Abstract

Recent deep learning approaches have achieved impressive performance on visual sound separation tasks. However, these approaches are mostly built on appearance and optical flow like motion feature representations

deep learning visual sound separation music gesture hetero-musical separation homo-musical separation

发现论文，激发创造

分析音乐表演视频的深度神经网络方法

该论文介绍了一个自动化标注音乐表演视频中手势的框架，使用 3D 卷积神经网络，通过批处理平衡和空间 - 时间手势表示等方法，成功提高了 12% 的手势识别准确率，对跨多个视频的多个手势 / 类别进行了详细的研究，并探讨了使用音频特征的可能性。

May, 2022

PianoMotion10M：钢琴演奏中手部动作生成的数据集与基准

通过构建一个钢琴手运动生成基准和采集一个包含 10 百万个手部姿势注释的钢琴演奏视频数据集 PianoMotion10M，该研究提出了一个钢琴指法的指导系统，通过音频生成手部运动，并评估了其性能。

Jun, 2024

基于音频的神经手势再现与视频运动图的应用

该论文提供了一种利用语音内容匹配身体动作的视频再现方法，通过剪辑、组合、动作建模、音频节奏搜索等技术，实现了更高质量和一致性的视频合成。

Jul, 2022

音频到身体动态

本研究提出了一种方法，可以将小提琴或钢琴的演奏声音转化为骨架预测视频，进而用于动画化头像。研究表明，基于从互联网上传的小提琴和钢琴演奏视频训练的 LSTM 网络可以预测自然的身体动态，并将预测出的点应用于装配的角色机器人，以创建动画。

Dec, 2017

利用自监督运动表示进行视觉引导的声源分离和定位

本文提出了一种基于视音频的声源分离方法，其中包括二阶段的体系结构，用于外观和动作特征提取，并引入了音频 - 运动嵌入框架，以明确表示与声音相关的动态物体，该方法无需预训练关键点检测器或光流测量仪，在两个比较具有挑战性的数据集上取得了最先进的性能表现。

Apr, 2021

音频驱动的同话手势视频生成

本研究旨在解决语音驱动的共同语言手势图像序列生成问题，提出了一种名为 ANGIE 的框架，使用向量量化运动提取器和共同语言 GPT，以有效地捕捉可重用的共同语言手势模式和细粒度节奏变化，从而实现高保真度的图像序列生成。

Dec, 2022

使用条件变分自编码器从语音音频生成多样化手势

通过 split cross-modal 潜变量为 shared 和 motion-specific 两部分，结合 mapping network, relaxed motion loss, bicycle constraint 和 diversity loss 技术来训练条件变分自编码器，从而更加真实和多样的生成语音到动作的映射。

Aug, 2021

动静之声

本论文提出了一种基于物体运动和振动的声音定位和分离系统，其中包含一个可学习的、端到端的模型 Deep Dense Trajectory（DDT）和一个课程学习策略，其与之前依赖于视觉外观提示的模型相比，在从大量未标记的视频中捕获音频 - 视觉信号的内在一致性方面有所提升，以分离出同类乐器的二重奏声音分量，这是一个挑战性的问题。

Apr, 2019

VoViT: 基于图论的低延迟音视频语音分离 Transformer

本文提出了一种音频 - 视觉声音分离方案，在两种不同场景（语音和唱歌）中实现了低时延的最新成果。该模型基于两级网络，采用轻量级图卷积网络从面部标记中提取运动线索，然后将视觉和音频特征输入到音频 - 视觉转换器中，为目标源的隔离估计提供相当不错的结果。在第二阶段，利用音频网络增强了主要的声音。我们进行了不同的消融研究和与最先进的方法比较。最后，我们探讨了在唱声分离任务中训练语音分离模型的可转移性。

Mar, 2022

通过运动解耦扩散模型生成共说手势视频

本文提出了一种新的运动解耦框架来生成音频驱动的共语手势视频，通过引入非线性 TPS 变换和基于变压器的扩散模型，学习手势和语音之间的时序相关性，并利用优化运动选择模块生成长期连贯和一致的手势视频，最后设计了一个细节修复网络来增强视觉感知，实验结果表明我们的框架在动作和视频评估方面明显优于现有方法。

Apr, 2024