Aug, 2023

自我模式:一种用于超长视频语言理解的诊断基准

TL;DREgoSchema是一个用于评估现代视觉和语言系统长视频理解能力的非常长的视频问答数据集和基准测试。