Jun, 2023

通过冻结大型语言模型实现零样本视频问答

TL;DR本研究提出一种简单而有效的 Retrieving-to-Answer 框架,通过预先训练的多模态模型从通用文本语料库中检索到一组语义上相似的文本,再与问题一起使用大型语言模型产生答案,可以在多个 VideoQA 基准测试中达到较高水平,并且无需跨模态微调。