Diff-Foley: 基于潜在扩散模型的同步视频 - 音频合成
本文介绍了一种新的 T2V 框架,通过引入音频信号来控制时间动态,从而使传统的 T2I 扩散生成可以与音频对齐的视频。我们提出了基于音频的区域编辑和信号平滑方法,以在视频综合的时间灵活性和一致性之间取得良好平衡,并通过实验验证了方法的有效性,并提出了实际应用。
May, 2023
本研究提出了一种基于扩散模型的 Foley 声音生成系统,该系统使用文本条件进行预测。通过使用 CLAP 技术的迁移学习,将该模型初始化地进行了预训练,以缓解数据不足问题。实验结果表明,该方法显着提高了声音生成性能,使得该系统在 DCASE Challenge 2023 任务 7 中排名第一。
Jun, 2023
本研究提出了一个基于优化的跨视觉 - 音频和联合视觉 - 音频生成框架,通过与预训练的 ImageBind 模型共享潜在表示空间,实现了优越的联合视频 - 音频生成、视觉导向音频生成和音频导向视觉生成任务的性能。
Feb, 2024
Diff2Lip 是一个基于音频条件化扩散的模型,能够在野外环境中进行口型同步,同时保持细节丰富、逼真的唇部动作、身份特征、姿势、表情和图像质量,并且相较于 Wav2Lip 和 PC-AVS 的流行方法,在 Fréchet inception 距离 (FID) 和用户意见评分 (MOS) 方面表现出更好的性能。
Aug, 2023
本文介绍了一种基于 Multi-Modal Diffusion 模型,利用两个耦合的自编码器进行序列多模态非线性去噪,提出了一种随机平移注意力块用于跨模态对齐,以实现音视频帧的生成并提高音视频质量
Dec, 2022
学习了音频和视觉信号的同步已经被利用来学习更丰富的音频 - 视觉表示,最新的研究结合了扩散模型与音频 - 视频预训练框架 MAViL,通过使用掩蔽编码和对比学习来实现音频谱图和视频帧的联合重构,并通过训练效率方法的结合降低了 32%的浮点预训练操作数量 (FLOPS) 和 18%的预训练时间,与 MAViL 相比,在下游音频分类任务上没有损害模型的性能。
Oct, 2023
本文介绍了一种基于潜在空间的 Text-to-audio(TTA)系统 AudioLDM,它使用对比语音 - 语言预训练(CLAP)潜在信息学习连续音频表示,并以文本嵌入作为采样条件,从而在生成质量和计算效率方面具有优势,实测效果接近官方记录,并可以进行零 - shot 文本引导音频操作,如风格转移。
Jan, 2023
该文章提出了一种基于视觉对齐的新型个性化文本转语音生成方法 ——DiffAVA,它使用多头注意力变换器聚合视觉特征的时间信息,并利用双模残差网络将时间视觉表示与文本嵌入进行融合,然后采用对比学习目标来匹配视觉对齐的文本嵌入和音频特征。研究结果表明,DiffAVA 在视觉对齐的文本转音频生成方面具有竞争力的表现。
May, 2023
通过少量标记数据进行音视频数据的深度学习模型训练是一种更经济的方式,本研究提出了一种统一的音视频少样本视频分类基准,通过跨模态注意力融合时空和音视觉特征,并为新类别生成多模态特征,最终获得了最先进的音视频少样本学习表现。
Sep, 2023
该研究将 LDM 范例应用于高分辨率视频生成中,利用图像生成器实现视频生成,利用时间维度对视频超分辨率模型进行精细调整,验证其在真实驾驶视频上的表现,且可将 LDM 应用于文本到视频模型中。
Apr, 2023