Jun, 2024

太多的帧,不全是有用的:长篇视频问答的高效策略

TL;DR长篇视频中的关键帧选择和顺序感知字幕生成能够显著减少信息冗余,我们提出的 LVNet 框架通过两种新的方法在 LVQA 基准数据集上实现了最先进的性能。