AlignNet: 音频视觉对齐的统一方法
生成多样化和逼真的视频,根据语义类别广泛的自然音频样本进行引导。采用了基于轻量级适配器网络的方法,将音频基础表示映射到文本 - 视频生成模型所期望的输入表示,实现了对文本、音频以及文本和音频的生成视频。在三个数据集上验证了该方法,展示了生成的音频视频样本的显著语义多样性,并提出了一种新的评估度量(AV-Align)以评估生成视频与输入音频样本的对齐性。与最新的先进方法相比,我们的方法生成的视频在内容和时间轴上都与输入音频更好地对齐,并且呈现更高的视觉质量和多样性。
Sep, 2023
本研究提出了一个基于优化的跨视觉 - 音频和联合视觉 - 音频生成框架,通过与预训练的 ImageBind 模型共享潜在表示空间,实现了优越的联合视频 - 音频生成、视觉导向音频生成和音频导向视觉生成任务的性能。
Feb, 2024
我们的研究目标是在 YouTube 等 ' 野外 ' 视频中实现音频和视觉的同步,我们提出了一种新颖的音视频同步模型,并通过多模式片段级对比预训练将特征提取与同步建模分离开来。这种方法在密集和稀疏环境下都实现了最先进的性能,并将同步模型训练扩展到了 AudioSet 这个年度规模的 ' 野外 ' 数据集,并研究了可解释性的证据归因技术,探索了同步模型的新能力:音视频同步能力。
Jan, 2024
本文介绍一种可扩展和强健的非线性时间视频对齐方法,该方法利用了视频本身的本质,能够在没有手动标签的情况下对月份间隔的数据进行视频对齐,并能用于计算机图形学和视觉领域的广泛应用。
Oct, 2016
本研究提出基于 transformer 的架构和度量标准用于评估各种类别下的音频 - 视频同步,并使用新的 VGG-Sound Sync 数据集测试。结果表明,我们的模型优于先前的最先进技术。
Dec, 2021
本文提出了一个名为 REGNET 的框架,利用外观和运动特征从视频帧中提取物体发出的声音,结合创新的音频转发正则化器进行更强的声音预测监督,在训练过程中使用了可控制影响因素的正则化器,并通过 Amazon Mechanical Turk 进行了大量评估,成功实现了音频和视频的时序和内容对齐。
Jul, 2020
本文提出了一种时间对齐网络,能够对长期视频序列和关联文本句子进行处理,使用了一种新颖的共同训练方法来减少噪音并训练原始指导视频,应用于多个视频理解任务,包括文本 - 视频检索和弱监督视频动作分割等,获得了更好的性能。
Apr, 2022
本文提出了一种基于深度学习的新型方法,用于直接从输入音频中产生驱动 JALI 或标准 FACS 制作面部捕捉的动画师中心音频运动曲线。
May, 2018
该论文提出了一种新颖的深度学习算法,通过单流网络和新的损失函数来实现音频和视觉信息的联合表示,并使用类中心对共享的深层潜在空间表示进行表征,以实现无需成对或三重监督。在 VoxCeleb 数据集上的多种任务中进行了定量和定性评估,在跨模式验证和匹配方面实现了最先进的性能,验证了该技术在跨模式生物认证应用中的有效性。
Sep, 2019