AlignNet: 音频视觉对齐的统一方法

Feb, 2020

AlignNet: A Unifying Approach to Audio-Visual Alignment

Jianren Wang, Zhaoyuan Fang, Hang Zhao

TL;DRAlignNet 是一种使用注意力机制、金字塔处理、双线性变换等原则设计的模型，可实现解决视频和音频偏差不对齐的问题，并使用 Dance50 数据集进行训练和评估，结果表明相较于现有的方法，我们的模型表现得更优秀。

Abstract

We present alignnet, a model that synchronizes videos with reference audios under non-uniform and irregular misalignments. alignnet learns the end-to-end dense correspondence between each frame of a →

alignnet video audio attention dataset

发现论文，激发创造

通过文本到视频模型的调整实现多样和一致的音视频生成

生成多样化和逼真的视频，根据语义类别广泛的自然音频样本进行引导。采用了基于轻量级适配器网络的方法，将音频基础表示映射到文本 - 视频生成模型所期望的输入表示，实现了对文本、音频以及文本和音频的生成视频。在三个数据集上验证了该方法，展示了生成的音频视频样本的显著语义多样性，并提出了一种新的评估度量（AV-Align）以评估生成视频与输入音频样本的对齐性。与最新的先进方法相比，我们的方法生成的视频在内容和时间轴上都与输入音频更好地对齐，并且呈现更高的视觉质量和多样性。

Sep, 2023

视听结合：基于扩散潜在对齐器的开放领域视听生成

本研究提出了一个基于优化的跨视觉 - 音频和联合视觉 - 音频生成框架，通过与预训练的 ImageBind 模型共享潜在表示空间，实现了优越的联合视频 - 音频生成、视觉导向音频生成和音频导向视觉生成任务的性能。

Feb, 2024

Synchformer: 从稀疏提示实现高效同步

我们的研究目标是在 YouTube 等 ' 野外 ' 视频中实现音频和视觉的同步，我们提出了一种新颖的音视频同步模型，并通过多模式片段级对比预训练将特征提取与同步建模分离开来。这种方法在密集和稀疏环境下都实现了最先进的性能，并将同步模型训练扩展到了 AudioSet 这个年度规模的 ' 野外 ' 数据集，并研究了可解释性的证据归因技术，探索了同步模型的新能力：音视频同步能力。

Jan, 2024

无标记学习稳健视频同步

本文介绍一种可扩展和强健的非线性时间视频对齐方法，该方法利用了视频本身的本质，能够在没有手动标签的情况下对月份间隔的数据进行视频对齐，并能用于计算机图形学和视觉领域的广泛应用。

Oct, 2016

野外音视频同步

本研究提出基于 transformer 的架构和度量标准用于评估各种类别下的音频 - 视频同步，并使用新的 VGG-Sound Sync 数据集测试。结果表明，我们的模型优于先前的最先进技术。

Dec, 2021

从视频中生成视觉对齐的音频

本文提出了一个名为 REGNET 的框架，利用外观和运动特征从视频帧中提取物体发出的声音，结合创新的音频转发正则化器进行更强的声音预测监督，在训练过程中使用了可控制影响因素的正则化器，并通过 Amazon Mechanical Turk 进行了大量评估，成功实现了音频和视频的时序和内容对齐。

Jul, 2020

音频与谱对准的混合方法

使用神经网络作为 Dynamic Time Warping (DTW) 方法的预处理步骤，可以生成鲁棒的、适应性强的自动音乐配准。

Jul, 2020

长时间视频的时间对齐网络

本文提出了一种时间对齐网络，能够对长期视频序列和关联文本句子进行处理，使用了一种新颖的共同训练方法来减少噪音并训练原始指导视频，应用于多个视频理解任务，包括文本 - 视频检索和弱监督视频动作分割等，获得了更好的性能。

Apr, 2022

VisemeNet：音频驱动的动画师中心语音动画

本文提出了一种基于深度学习的新型方法，用于直接从输入音频中产生驱动 JALI 或标准 FACS 制作面部捕捉的动画师中心音频运动曲线。

May, 2018

音频和视觉信号的跨模态映射的深度潜在空间学习

该论文提出了一种新颖的深度学习算法，通过单流网络和新的损失函数来实现音频和视觉信息的联合表示，并使用类中心对共享的深层潜在空间表示进行表征，以实现无需成对或三重监督。在 VoxCeleb 数据集上的多种任务中进行了定量和定性评估，在跨模式验证和匹配方面实现了最先进的性能，验证了该技术在跨模式生物认证应用中的有效性。

Sep, 2019