Feb, 2024

Slot-VLM:视频-语言建模的SlowFast插槽

TL;DR使用VLM技术,本研究提出了一种名为Slot-VLM的新框架,通过语义分解视频 tokens,将视频内容与LLMs相对齐,为LLM推理提供帮助。Slot-VLM在视频问答任务中取得了最先进的性能。