Nov, 2024

时间标记器:一种具有优越时间定位能力的多用途视频大语言模型

TL;DR本研究解决了现有视频语言模型在精确时间定位方面的不足,以应对不同长度视频的挑战。我们提出的时间标记器通过引入时间分隔符标记增强时间意识,并采用AnyLength机制来适应性地处理短视频和长视频。评估结果表明,时间标记器在多个基准测试中表现出色,展示了其在视频理解领域的显著潜力。