Apr, 2024

PEAVS:基于观众评分的音频视觉同步感知评估

TL;DR最近在音频 - 视觉生成建模方面取得的进展,得益于深度学习和数据丰富的基准的进步。然而,这种增长不仅仅归功于模型和基准,普遍接受的评估指标在推动该领域发展中也起着重要作用。虽然有许多用于单独评估音频和视觉内容的指标,但缺乏提供野外视频音频 - 视觉同步定量解释性测量的指标。为了解决这一问题,我们首先创建了一个大规模人工注释数据集(100 + 小时),代表九种类型音频 - 视觉同步错误及人类对其的感知。然后,我们开发了一种新颖的自动度量 PEAVS(音频 - 视觉同步的感知评估),它具有 5 分制度量,评估音频 - 视觉同步的质量。我们使用一个新生成的数据集对 PEAVS 进行验证,与人工标签相比,在集合级别和片段级别分别达到了 0.79 和 0.54 的 Pearson 相关系数。在我们的实验证明,与基于 Fréchet 的音频 - 视觉同步指标的自然扩展相比,PEAVS 相对增益达到了 50%,从而确认了 PEAVS 在客观建模音频 - 视觉同步的主观感知方面的效果。