May, 2024

视频 - LMMs 的复杂推理与鲁棒性评估套件

TL;DR通过开发一种复杂视频推理和鲁棒性评估套件(CVRR-ES),该研究综合评估了多种最新 Video-LMMs 模型在 11 个不同的现实世界视频维度上的性能,发现大多数 Video-LMMs 模型在处理复杂视频时,特别是开源模型,在鲁棒性和推理能力方面存在困难。此外,作者还提出了一个训练免费的双步骤上下文提示(DSCP)技术以提升现有 Video-LMMs 模型的性能,并为构建具有先进鲁棒性和推理能力的下一代以人为中心的人工智能系统提供了有价值的见解。