Oct, 2024

通过时间门控增强视频大语言模型的时间建模

TL;DR本研究解决了现有视频大语言模型在视频数据中忽视时间信息的问题,提出了一个新颖的时间门控模块(TG),以增强时间建模能力。实验结果表明,所提出的TG-Vid模型在多个时间敏感的视频基准测试中显著优于现有模型,证明了TG模块设计的重要性。