Jun, 2024

用于长视频问答的分层记忆

TL;DR本文描述了我们在 LOVEU 挑战赛 @CVPR'24 中的冠军解决方案,利用 STAR Memory 这个层次性内存机制处理长视频,并使用 MovieChat-1K 训练集优化了预训练权重,在该挑战中取得了第一名。