可训练的选择器：稀疏时空音视频同步

Oct, 2022

可训练的选择器：稀疏时空音视频同步

Sparse in Space and Time: Audio-visual Synchronisation with Trainable Selectors

Vladimir Iashin, Weidi Xie, Esa Rahtu, Andrew Zisserman

TL;DR探讨基于多模态转换模型处理视频的音视频同步问题，提出使用视频流选择器将长时间的音视频流裁剪成小的序列并使用它们来预测两个流之间的时间偏移。通过构建数据集和解决压缩编解码器带来的问题，验证了该方法在稀疏和密集同步数据集上的优越性。

Abstract

The objective of this paper is audio-visual synchronisation of general videos 'in the wild'. For such videos, the events that may be harnessed for synchronisation cues may be spatially small and may occur only infrequently during a many seconds-long video clip, i.e. the synchronisation

audio-visual synchronisation sparse signals multi-modal transformer model compression codecs dataset

发现论文，激发创造

Synchformer: 从稀疏提示实现高效同步

我们的研究目标是在 YouTube 等 ' 野外 ' 视频中实现音频和视觉的同步，我们提出了一种新颖的音视频同步模型，并通过多模式片段级对比预训练将特征提取与同步建模分离开来。这种方法在密集和稀疏环境下都实现了最先进的性能，并将同步模型训练扩展到了 AudioSet 这个年度规模的 ' 野外 ' 数据集，并研究了可解释性的证据归因技术，探索了同步模型的新能力：音视频同步能力。

Jan, 2024

野外音视频同步

本研究提出基于 transformer 的架构和度量标准用于评估各种类别下的音频 - 视频同步，并使用新的 VGG-Sound Sync 数据集测试。结果表明，我们的模型优于先前的最先进技术。

Dec, 2021

自监督同步下的音频和视频模型协同学习

该研究通过自监督的时间同步学习模型实现音频和视频分析的目的，模型能够在没有微调的情况下有效地识别出时序同步的音频 - 视频配对，并提供了一种非常有效的初始化方式以改善基于视频的动作识别模型的准确性。

Jun, 2018

完美匹配：音频 - 视觉同步的改进型跨模态嵌入

该论文提出了一种新的跨模态嵌入学习策略，通过多路匹配问题学习嵌入，显著提升了音频到视频同步任务的表现，并用学习到的嵌入进行自我监督的视觉语音识别。

Sep, 2018

统一的视频 - 语言联合预训练与同步音频

我们提出了一种增强的视频语言预训练框架，使用同步音频，可以在统一的自监督转换器中学习三模态表示。我们的模型在仅使用 90 万条数据进行预训练的情况下，取得了相对于现有基准的改进结果，并通过定性可视化展示了其在学习有区分性的视觉文本表示方面的优越性。

May, 2024

音频同步视觉动画

当前的视觉生成方法可以通过文本生成高质量的视频，但有效地控制物体动态仍然是一项挑战。本研究探讨了音频作为生成时间同步图像动画的线索。我们引入了音频同步视觉动画（ASVA），这是一项通过多类别的音频片段在时间上引导静态图像展示运动动态的任务。为此，我们提出了一个以 VGGSound 为基础的数据集 AVSync15，其中的视频展示了 15 个类别中音频和视觉事件同步。我们还提出了一种扩散模型 AVSyncD，能够通过音频生成动态动画。广泛的评估验证了 AVSync15 作为一个可靠的同步生成基准，并展示了我们模型的优越性能。我们进一步探索了 AVSyncDs 在各种音频同步生成任务中的潜力，从没有基础图像的生成完整视频到用各种声音控制物体运动。我们希望我们建立的基准能为可控的视觉生成开辟新的道路。更多视频请访问项目网页链接。

Mar, 2024

SViTT: 稀疏视频文本 Transformer 的时间学习

通过引入边缘稀疏性和节点稀疏性的 SViTT 稀疏视频文本架构可以以较低的成本进行多帧推理，优于朴素变压器基线，并对多个视频文本检索和问答基准进行了训练，以及在更长的片段长度下是针对模型稀疏性（sparsity）进行了培训。

Apr, 2023

自监督多感官特征的音频 - 视觉场景分析

本文提出了一种融合多感官表征的方法，通过神经网络自动预测视频帧和音频的时间对齐情况，实现声音定位、视听行为识别和音频源分离等三个应用。

Apr, 2018

课程视听学习

本文提出了一种灵活的音视频模型，通过软聚类模块作为音频和视频内容检测器，并将音视频并发的普遍属性视为推断检测内容之间相关性的潜在监督，并提出一种新颖的课程学习策略，从简单到复杂的场景训练模型，以缓解音视频学习的困难。同时，本文的音视频模型还可提供有效的单模态表示和跨模态对齐性能，进一步将训练好的模型部署到实际音视频定位和分离任务中，并显示其定位模型明显优于现有方法，基于此，我们在音频分离方面的性能也表现出色，而不需要参考外部视觉监督。

Jan, 2020

面向大规模分类和弱标注音频事件同步的音频视觉转换器架构

本文报道了一种基于 transformer 神经网络的多模式音视频分类方法，具有较高的准确度，同时还证明了在某些情况下，视觉信息对这个任务是非常有用的。

Dec, 2019