长期节奏视频音轨器
本文系统研究了仅基于视频生成音乐的方法,并提出了一个大规模数据集和一个名为 VidMuse 的简单框架,该框架通过在局部和全局可视线索的引导下,使用长短期模型创建与视频内容一致的音频轨迹,实现了高保真度的音乐生成及其与视频的音视一致性对齐。通过广泛的实验证明,VidMuse 在音频质量、多样性和音视对齐方面优于现有模型。
Jun, 2024
本研究提出了一种视频生成模型,通过重新设计时域隐变量表示和学习长期一致性并进行长时间分辨率分别为低和高的两阶段训练策略来优化生成视频的时序一致性,所得的模型经过新的基准数据集的测试,取得了良好的效果。
Jun, 2022
本文提出了一种利用 3D-VQGAN 和 transformers 生成长视频的方法,并通过 UCF-101、Sky Time-lapse 和 Taichi-HD 数据集的 16 帧视频剪辑进行了验证,同时还展示了结合文本和音频等条件扩展的方法。
Apr, 2022
本文提出了一种以音乐驱动的舞蹈合成框架,能够在保证特定舞蹈风格总体结构一致的同时,生成长期与节拍同步的多样运动,包括连贯的姿势,按特定分布的相连动作和整个舞蹈的运动顺序。该框架是一个分层系统,包括位姿、动作图案和编舞级别。其中,LSTM 组件生成时间上连续的姿势序列,动作图案级别利用新颖的动态感知丢失来引导一组连续的姿势形成属于特定分布的运动,编舞级别驱动系统遵循舞蹈总体结构,选择表演动作的顺序。实验表明,该以音乐驱动的框架能够在各种舞蹈类型上生成自然、一致的运动,并能控制合成运动的内容。
Nov, 2021
本研究提出基于 transformer 的架构和度量标准用于评估各种类别下的音频 - 视频同步,并使用新的 VGG-Sound Sync 数据集测试。结果表明,我们的模型优于先前的最先进技术。
Dec, 2021
通过对长时态上下文的生成模型进行训练,我们展示了可以产生长达 4 分 45 秒的音乐的可能性。我们的模型是在高度降采样的连续潜在表示(潜在速率为 21.5Hz)上操作的扩散变换器,根据音频质量和提示对齐的指标获得了最先进的生成结果,主观测试表明它能产生具有连贯结构的完整音乐。
Apr, 2024
本文提出了一种基于序列到序列学习的音乐条件舞蹈生成方法,通过设计一种课程学习策略,使其在长时间序列生成过程中减轻自回归模型中的误差积累,从而有效地捕捉音乐和舞蹈之间的微观对应关系,实验结果表明,该方法在自动度量和人类评估等方面明显优于现有技术水平。
Jun, 2020
本文提出了使用卷积变分递归神经网络对音乐进行特征捕捉和创作新音乐序列的模型,通过编码器 - 解码器架构和概率连接捕获音乐的隐藏结构,并使用 Variable Markov Oracle 方法对不同神经网络类型的性能进行比较,结果表明所提出的模型具有更好的统计相似性和更好地保留了原始音乐的风格。
Oct, 2018
我们的研究目标是在 YouTube 等 ' 野外 ' 视频中实现音频和视觉的同步,我们提出了一种新颖的音视频同步模型,并通过多模式片段级对比预训练将特征提取与同步建模分离开来。这种方法在密集和稀疏环境下都实现了最先进的性能,并将同步模型训练扩展到了 AudioSet 这个年度规模的 ' 野外 ' 数据集,并研究了可解释性的证据归因技术,探索了同步模型的新能力:音视频同步能力。
Jan, 2024
通过设计了一种长期舞蹈生成模型,LongDanceDiff,基于条件扩散模型,在解决时间一致性和空间约束方面具有挑战性,以提高生成舞蹈动作的多样性和质量。
Aug, 2023