Nov, 2023

用稀疏输入描述视频问答

TL;DR在视频问答中,我们使用基于 Gumbel 的可学习选择模块来自适应地选择最佳的输入,以实现对视频及语言任务的数据效率改进。我们的实验证明,即使在高度稀疏的设置下,我们只选取每个视频的 2-4 帧,视频长度仅为总长度的 10%,也仅仅损失了 5.2%-5.8% 的性能,同时观察到了视觉和文字输入之间的互补行为。