May, 2024
TOPA: 通过文本预对齐扩展大型语言模型用于视频理解
TOPA: Extend Large Language Models for Video Understanding via Text-Only
Pre-Alignment
TL;DR该论文介绍了一种名为TOPA的新方法,通过使用现有的大型语言模型(LLM)自动生成模拟真实视频-文本数据的连续文本帧,进而预对齐一种仅使用语言的LLM与视频模态之间的差距,并利用CLIP模型作为特征提取器来对齐图像和文本模态,从而实现了视频内容与LLMs的对齐。经过广泛实验证明,TOPA是一种有效而高效的框架,可与视频理解任务相结合,并达到与GPT-3.5基于视频代理相当的性能。