May, 2024

视频中的视觉和音频场景分类:一种基线方法和实验协议

TL;DR该研究提出了一种用于多媒体内容的特定内容验证问题的基准方法和实验方案:检测音频和视频之间的差异。通过设计和优化音频 - 视觉场景分类器,将其与使用两个模态性的已有分类基线进行比较。然后,通过将该分类器分别应用于音频和视觉模态,我们可以检测它们之间的场景分类不一致性。为了促进进一步的研究并提供一个共同的评估平台,我们介绍了一个模拟这种不一致性的实验方案和基准数据集。我们的方法在场景分类方面取得了最先进的结果,并在音频 - 视觉差异检测方面取得了有希望的成果,突显了其在内容验证应用中的潜力。