May, 2024

TOPA: 通过文本预对齐扩展大型语言模型用于视频理解

TL;DR该论文介绍了一种名为 TOPA 的新方法,通过使用现有的大型语言模型(LLM)自动生成模拟真实视频 - 文本数据的连续文本帧,进而预对齐一种仅使用语言的 LLM 与视频模态之间的差距,并利用 CLIP 模型作为特征提取器来对齐图像和文本模态,从而实现了视频内容与 LLMs 的对齐。经过广泛实验证明,TOPA 是一种有效而高效的框架,可与视频理解任务相结合,并达到与 GPT-3.5 基于视频代理相当的性能。