Sep, 2024

E.T.基准:迈向开放式事件级视频语言理解

TL;DR本研究解决了现有视频理解基准缺乏细粒度事件级评估和任务多样性的问题。我们提出了E.T.基准,这是一个大规模的高质量开放式事件级视频理解基准,包含12项任务下的7.3K样本和7K视频,提供全面评估。评估结果表明,现有的先进模型在解决细粒度任务时表现不佳,同时提出的E.T. Chat模型和指令调优数据集在多个场景中显示出优越的性能。