Mar, 2025

诊断基准:音视频评估的DAVE

TL;DR本研究针对音视频理解领域中现有基准测试的视觉偏见问题,提出了一种新颖的基准数据集DAVE(诊断音视频评估),旨在系统性地评估音视频模型。DAVE通过确保两种模态在回答时都必不可少来克服现有局限性,并将评估解耦为原子子类别,揭示了最新模型的特定失败模式,为改进提供了有针对性的见解。