本文介绍了一种基于Multi-Modal Diffusion模型,利用两个耦合的自编码器进行序列多模态非线性去噪,提出了一种随机平移注意力块用于跨模态对齐,以实现音视频帧的生成并提高音视频质量
Dec, 2022
该研究将LDM范例应用于高分辨率视频生成中,利用图像生成器实现视频生成,利用时间维度对视频超分辨率模型进行精细调整,验证其在真实驾驶视频上的表现,且可将LDM应用于文本到视频模型中。
Apr, 2023
使用Diff-Foley方法和潜在扩散模型进行音频与视频同步生成,其在现有的大规模数据集上取得了最先进的性能。
Jun, 2023
我们提出了稳定的视频扩散-一种用于高分辨率的文本到视频和图像到视频生成的潜在视频扩散模型。
Nov, 2023
我们介绍了一种多模态扩散模型,专为视频和音频的双向条件生成而设计。通过引入联合对比训练损失来增强视听事件的同步,我们认识到在多模态生成任务中准确对齐视频和音频事件的重要性。我们的研究方法包括对多个数据集进行全面实验,以全面评估我们所提出的模型的有效性。从各个角度进行了生成质量和对齐性能的评估,包括客观和主观指标。我们的研究结果表明,所提出的模型优于基线,证实了它的有效性和效率。特别地,对比损失的引入改善了音视频对齐,特别是在高相关性的视频到音频生成任务中。这些结果表明我们所提出的模型具有改善多模态生成的质量和对齐性的潜力,从而促进了视频和音频条件生成系统的发展。
Dec, 2023
本研究提出了一个基于优化的跨视觉-音频和联合视觉-音频生成框架,通过与预训练的ImageBind模型共享潜在表示空间,实现了优越的联合视频-音频生成、视觉导向音频生成和音频导向视觉生成任务的性能。
Feb, 2024
通过使用新的训练方法和变量扩散时间步长,我们提出了一种基于转换器的音视频潜在扩散模型,可在任务不可知的情况下进行训练,并在推理过程中实现各种音视频生成任务,克服基线模型在生成条件输入上的时间和感知上的不连贯样本的局限性。
May, 2024
通过利用预训练的单模态音频和视频生成模型,我们旨在构建一个计算成本最小化的音频-视频生成模型。为了实现这一目标,我们提出了一种新方法,通过引导每个单模态模型来协作生成跨模态对齐的样本。我们在几个基准数据集上的实证评估表明,我们的方法改进了单模态的准确度和多模态的对齐,同时具有相对较少的参数。
通过使用基于Transformer的diffuser,我们介绍了AV-DiT,一种用于生成高质量真实视频的音频-视觉扩散变压器,具有多模式内容创作的显著效能,并在联合音频-视觉生成中具有最先进的性能。
Jun, 2024
本研究针对声音视频生成领域中的现有方法不足进行了探讨。我们提出了一种集成音频和视频扩散模型的新方法,通过引入时间步调整和位置编码的跨模态条件设计(CMC-PE)机制,显著提升了音视频配对的对齐效果。实验结果表明,该方法在生成质量上优于现有技术,具有良好的应用潜力。
Sep, 2024