ICCVSep, 2023

语言作为媒介:通过仅文本进行多模态视频分类

TL;DR通过利用大型语言模型(如 GPT-3.5 或 Llama2)的广泛知识,结合 BLIP-2、Whisper 和 ImageBind 获取的视觉和听觉多模态文本描述,我们提出了一种新的模型不可知方法,用于生成捕捉多模态视频信息的详细文本描述。我们的评估结果表明,这种基于文本描述的方法在视频理解任务中取得了成功,为多模态分类提供了一个有前景的新研究方向。