Mar, 2024

长视频理解语言库

TL;DR本文介绍了一种语言仓库(LangRepo),用于长文本视频理解,通过维护简明有结构信息作为可解释的(即全文本)表示。该仓库基于多尺度视频块进行迭代更新,并引入了专注于修剪文本中的冗余信息和在各个时间尺度提取信息的写入和读取操作。该提出的框架在包括EgoSchema、NExT-QA、IntentQA和NExT-GQA等无监督视觉问答基准测试上进行评估,表现出最新最好的性能。我们的代码可在此链接获得:https://此链接。