PEAVS：基于观众评分的音频视觉同步感知评估

Apr, 2024

PEAVS：基于观众评分的音频视觉同步感知评估

PEAVS: Perceptual Evaluation of Audio-Visual Synchrony Grounded in Viewers' Opinion Scores

Lucas Goncalves, Prashant Mathur, Chandrashekhar Lavania, Metehan Cekic, Marcello Federico...

TL;DR最近在音频 - 视觉生成建模方面取得的进展，得益于深度学习和数据丰富的基准的进步。然而，这种增长不仅仅归功于模型和基准，普遍接受的评估指标在推动该领域发展中也起着重要作用。虽然有许多用于单独评估音频和视觉内容的指标，但缺乏提供野外视频音频 - 视觉同步定量解释性测量的指标。为了解决这一问题，我们首先创建了一个大规模人工注释数据集（100 + 小时），代表九种类型音频 - 视觉同步错误及人类对其的感知。然后，我们开发了一种新颖的自动度量 PEAVS（音频 - 视觉同步的感知评估），它具有 5 分制度量，评估音频 - 视觉同步的质量。我们使用一个新生成的数据集对 PEAVS 进行验证，与人工标签相比，在集合级别和片段级别分别达到了 0.79 和 0.54 的 Pearson 相关系数。在我们的实验证明，与基于 Fréchet 的音频 - 视觉同步指标的自然扩展相比，PEAVS 相对增益达到了 50％，从而确认了 PEAVS 在客观建模音频 - 视觉同步的主观感知方面的效果。

Abstract

Recent advancements in audio-visual generative modeling have been propelled by progress in deep learning and the availability of data-rich benchmarks. However, the growth is not attributed solely to models and benchmarks. Universally accepted →

audio-visual generative modeling evaluation metrics audio-visual synchronization perceptual evaluation of audio-visual synchrony dataset

发现论文，激发创造

野外音视频同步

本研究提出基于 transformer 的架构和度量标准用于评估各种类别下的音频 - 视频同步，并使用新的 VGG-Sound Sync 数据集测试。结果表明，我们的模型优于先前的最先进技术。

Dec, 2021

音视频语义分割进一步探究

本文提出一个新的策略：Visual Post-production (VPO)，旨在构建经济实惠、相对公正的音频 - 视觉语义分割基准数据集，为此引入了像素级音频 - 视觉对比学习方法并验证了该策略的有效性，最终结果表明 VPO 策略构建的数据集能够比 SOTA 模型获得更准确的音频 - 视觉语义分割。

Apr, 2023

音频同步视觉动画

当前的视觉生成方法可以通过文本生成高质量的视频，但有效地控制物体动态仍然是一项挑战。本研究探讨了音频作为生成时间同步图像动画的线索。我们引入了音频同步视觉动画（ASVA），这是一项通过多类别的音频片段在时间上引导静态图像展示运动动态的任务。为此，我们提出了一个以 VGGSound 为基础的数据集 AVSync15，其中的视频展示了 15 个类别中音频和视觉事件同步。我们还提出了一种扩散模型 AVSyncD，能够通过音频生成动态动画。广泛的评估验证了 AVSync15 作为一个可靠的同步生成基准，并展示了我们模型的优越性能。我们进一步探索了 AVSyncDs 在各种音频同步生成任务中的潜力，从没有基础图像的生成完整视频到用各种声音控制物体运动。我们希望我们建立的基准能为可控的视觉生成开辟新的道路。更多视频请访问项目网页链接。

Mar, 2024

音视频分割

本文提出音频与视觉分割（AVS）问题，并通过构建 AVSBench 基准集进行了研究。通过引入一种新颖的方法 —— 时间上的像素级音视频交互模块，可以指导视觉分割过程，同时设计了正则化损失函数以鼓励音视频映射的训练，比较了几种现有方法，发现该方法有望在音频和像素级视觉语义之间搭建桥梁。

Jul, 2022

带语义的音视频分割

本论文提出了一种新的问题 —— 音视频分割（AVS），旨在为可听的视频帧中产生声音的物体输出像素级地图，并构建了第一个 audio-visual segmentation（AVS）基准，即 AVSBench，为声音对象提供像素级注释。通过使用一种基于时间的像素级音视频交互模块注入音频语义指导视觉分割过程并设计一种正则化损失来鼓励训练期间的音视频映射，实验表明我们的方法能够有效地解决这个问题。

Jan, 2023

双向生成改进音频 - 视觉分割

通过建立视觉特征与声音的鲁棒相关性，利用双向生成框架实现音频 - 视觉分割的改进性能，在 AVS 基准测试中取得新的最先进表现水平，并发布源代码与预训练模型。

Aug, 2023

BAVS：通过整合基础知识引导音频 - 视觉分割

本文提出了一种基于多模态基础知识的两阶段引导式音频 - 视觉分割框架用于消除分割中的背景噪音或离屏音，通过明确建立音频 - 视觉对应关系和在音频 - 视觉树上追踪校准对象标签的方式，实现了真实音频对象的有效分割。

Aug, 2023

Synchformer: 从稀疏提示实现高效同步

我们的研究目标是在 YouTube 等 ' 野外 ' 视频中实现音频和视觉的同步，我们提出了一种新颖的音视频同步模型，并通过多模式片段级对比预训练将特征提取与同步建模分离开来。这种方法在密集和稀疏环境下都实现了最先进的性能，并将同步模型训练扩展到了 AudioSet 这个年度规模的 ' 野外 ' 数据集，并研究了可解释性的证据归因技术，探索了同步模型的新能力：音视频同步能力。

Jan, 2024

自监督同步下的音频和视频模型协同学习

该研究通过自监督的时间同步学习模型实现音频和视频分析的目的，模型能够在没有微调的情况下有效地识别出时序同步的音频 - 视频配对，并提供了一种非常有效的初始化方式以改善基于视频的动作识别模型的准确性。

Jun, 2018

音频线索加强的音频视觉分割引导

提出了 AVSAC 方法，通过构建双向音频 - 视觉解码器并采用二向桥接设计，实现了音频线索的增强和音频与视觉模态之间的连续交互，从而缩小模态不平衡、促进整合音频 - 视觉表示的有效学习。此外，提出了音频 - 视觉帧同步策略，通过更好的同步音频组件与视觉特征，有助于更平衡的音频 - 视觉表示学习。大量实验证明，该方法在 AVS 性能方面取得了新的突破。

Feb, 2024