Mar, 2024

ST-LLM:大型语言模型是有效的时间学习器

TL;DR通过在 Large Language Models(LLMs)中添加 Spatial-Temporal 序列建模,提高视频理解能力,并通过动态掩蔽策略和全局 - 局部输入模块提升效率和稳定性,从而在 VideoChatGPT-Bench 和 MVBench 上建立了新的最优结果。