Synchformer: 从稀疏提示实现高效同步

Jan, 2024

Synchformer: 从稀疏提示实现高效同步

Synchformer: Efficient Synchronization from Sparse Cues

Vladimir Iashin, Weidi Xie, Esa Rahtu, Andrew Zisserman

TL;DR我们的研究目标是在 YouTube 等 ' 野外 ' 视频中实现音频和视觉的同步，我们提出了一种新颖的音视频同步模型，并通过多模式片段级对比预训练将特征提取与同步建模分离开来。这种方法在密集和稀疏环境下都实现了最先进的性能，并将同步模型训练扩展到了 AudioSet 这个年度规模的 ' 野外 ' 数据集，并研究了可解释性的证据归因技术，探索了同步模型的新能力：音视频同步能力。

Abstract

Our objective is audio-visual synchronization with a focus on 'in-the-wild' videos, such as those on YouTube, where synchronization cues can be sparse. Our contributions include a novel audio-visual synchronization

audio-visual synchronization in-the-wild' videos synchronization model training interpretability

发现论文，激发创造

可训练的选择器：稀疏时空音视频同步

探讨基于多模态转换模型处理视频的音视频同步问题，提出使用视频流选择器将长时间的音视频流裁剪成小的序列并使用它们来预测两个流之间的时间偏移。通过构建数据集和解决压缩编解码器带来的问题，验证了该方法在稀疏和密集同步数据集上的优越性。

Oct, 2022

野外音视频同步

本研究提出基于 transformer 的架构和度量标准用于评估各种类别下的音频 - 视频同步，并使用新的 VGG-Sound Sync 数据集测试。结果表明，我们的模型优于先前的最先进技术。

Dec, 2021

自监督同步下的音频和视频模型协同学习

该研究通过自监督的时间同步学习模型实现音频和视频分析的目的，模型能够在没有微调的情况下有效地识别出时序同步的音频 - 视频配对，并提供了一种非常有效的初始化方式以改善基于视频的动作识别模型的准确性。

Jun, 2018

完美匹配：音频 - 视觉同步的改进型跨模态嵌入

该论文提出了一种新的跨模态嵌入学习策略，通过多路匹配问题学习嵌入，显著提升了音频到视频同步任务的表现，并用学习到的嵌入进行自我监督的视觉语音识别。

Sep, 2018

课程视听学习

本文提出了一种灵活的音视频模型，通过软聚类模块作为音频和视频内容检测器，并将音视频并发的普遍属性视为推断检测内容之间相关性的潜在监督，并提出一种新颖的课程学习策略，从简单到复杂的场景训练模型，以缓解音视频学习的困难。同时，本文的音视频模型还可提供有效的单模态表示和跨模态对齐性能，进一步将训练好的模型部署到实际音视频定位和分离任务中，并显示其定位模型明显优于现有方法，基于此，我们在音频分离方面的性能也表现出色，而不需要参考外部视觉监督。

Jan, 2020

自监督学习用于音视频发言人分离

提出自监督的音视频同步学习方法，通过引入动态三元组损失和多项式损失函数来解决说话人分离问题，结果表明该方法在人机交互系统中大幅提高了 F1 分数和降低了分离误差率，并且介绍了一个新的大规模中文音视频语料库。

Feb, 2020

音频同步视觉动画

当前的视觉生成方法可以通过文本生成高质量的视频，但有效地控制物体动态仍然是一项挑战。本研究探讨了音频作为生成时间同步图像动画的线索。我们引入了音频同步视觉动画（ASVA），这是一项通过多类别的音频片段在时间上引导静态图像展示运动动态的任务。为此，我们提出了一个以 VGGSound 为基础的数据集 AVSync15，其中的视频展示了 15 个类别中音频和视觉事件同步。我们还提出了一种扩散模型 AVSyncD，能够通过音频生成动态动画。广泛的评估验证了 AVSync15 作为一个可靠的同步生成基准，并展示了我们模型的优越性能。我们进一步探索了 AVSyncDs 在各种音频同步生成任务中的潜力，从没有基础图像的生成完整视频到用各种声音控制物体运动。我们希望我们建立的基准能为可控的视觉生成开辟新的道路。更多视频请访问项目网页链接。

Mar, 2024

统一的视频 - 语言联合预训练与同步音频

我们提出了一种增强的视频语言预训练框架，使用同步音频，可以在统一的自监督转换器中学习三模态表示。我们的模型在仅使用 90 万条数据进行预训练的情况下，取得了相对于现有基准的改进结果，并通过定性可视化展示了其在学习有区分性的视觉文本表示方面的优越性。

May, 2024

SyncVSR: 数据高效的视觉语音识别与端到端跨模态音频令牌同步

Visual Speech Recognition (VSR) aims to interpret spoken content from visual cues, and SyncVSR presents an end-to-end learning framework that synchronizes visual representation with acoustic data, achieving state-of-the-art results while reducing data usage by up to ninefold.

Jun, 2024

时序自监督的音视频对比学习

本文提出了一种自我监督学习方法，用于学习视频的表示，结合了 RGB 帧和相关的音频，通过多模式对比目标来扩展时间自我监督的音频 - 视觉设置，并提出了新的对比目标。

Feb, 2023