自回归下视频音频的时间对齐
AlignNet是一种使用注意力机制、金字塔处理、双线性变换等原则设计的模型,可实现解决视频和音频偏差不对齐的问题,并使用Dance50数据集进行训练和评估,结果表明相较于现有的方法,我们的模型表现得更优秀。
Feb, 2020
利用计算机视觉技术收集大规模无噪声标签的音频-视觉数据集,用于训练和评估音频识别模型。使用图像分类算法,过滤环境噪声,创建 VGGSound 数据集,并研究了各种卷积神经网络架构和聚合方法,以建立新数据集的音频识别基线。
Apr, 2020
本研究提出基于transformer的架构和度量标准用于评估各种类别下的音频 - 视频同步,并使用新的VGG-Sound Sync数据集测试。结果表明,我们的模型优于先前的最先进技术。
Dec, 2021
探讨基于多模态转换模型处理视频的音视频同步问题,提出使用视频流选择器将长时间的音视频流裁剪成小的序列并使用它们来预测两个流之间的时间偏移。通过构建数据集和解决压缩编解码器带来的问题,验证了该方法在稀疏和密集同步数据集上的优越性。
Oct, 2022
本文介绍了一种名为V2Meow的多阶段自回归模型方法,它不需要使用任何平行的象征性音乐数据,通过预训练的可靠视觉特征即可生成与视频语义相对应的高保真音频波形,并支持对音乐风格的高级控制。
May, 2023
生成多样化和逼真的视频,根据语义类别广泛的自然音频样本进行引导。采用了基于轻量级适配器网络的方法,将音频基础表示映射到文本-视频生成模型所期望的输入表示,实现了对文本、音频以及文本和音频的生成视频。在三个数据集上验证了该方法,展示了生成的音频视频样本的显著语义多样性,并提出了一种新的评估度量(AV-Align)以评估生成视频与输入音频样本的对齐性。与最新的先进方法相比,我们的方法生成的视频在内容和时间轴上都与输入音频更好地对齐,并且呈现更高的视觉质量和多样性。
Sep, 2023
我们的研究目标是在YouTube等'野外'视频中实现音频和视觉的同步,我们提出了一种新颖的音视频同步模型,并通过多模式片段级对比预训练将特征提取与同步建模分离开来。这种方法在密集和稀疏环境下都实现了最先进的性能,并将同步模型训练扩展到了AudioSet这个年度规模的'野外'数据集,并研究了可解释性的证据归因技术,探索了同步模型的新能力:音视频同步能力。
Jan, 2024
本研究提出了一个基于优化的跨视觉-音频和联合视觉-音频生成框架,通过与预训练的ImageBind模型共享潜在表示空间,实现了优越的联合视频-音频生成、视觉导向音频生成和音频导向视觉生成任务的性能。
Feb, 2024
近期,研究人员在文本转语音生成方面的关注度不断增加,本研究提出了一个名为T2AV-Bench的创新基准和一个简单而有效的视频对齐文本到音频生成模型T2AV,通过整合视觉对齐的文本嵌入到生成模型中,通过时间多头注意力转换器从视频数据中提取和理解时间细微差异,并通过Audio-Visual ControlNet将时态视觉表示与文本嵌入精确地融合,进一步增强集成性,以确保视觉对齐和时间一致性。经过对AudioCaps和T2AV-Bench的广泛评估,T2AV在视觉对齐和时间一致性上设立了新的标准。
Mar, 2024
通过探索视觉编码器、辅助嵌入、数据增强技术等方面,该研究旨在提供对视频到音频生成范式的洞察。通过全面的评估流程,并强调生成质量和视频音频同步对齐,论文展示了其模型在视频到音频生成方面的最新能力。此外,研究还提供了不同数据增强方法对增强生成框架整体性能的影响的重要见解,为从语义和时间角度生成同步音频的挑战展示了可能性。希望这些洞察能为开发更加逼真准确的音视频生成模型奠定基础。
Jul, 2024