ICCVSep, 2023

多模式提示下的零备和少备视频问答

TL;DR近期的视觉 - 语言模型主要面临有限数据下的过拟合、灾难性遗忘以及视觉与语言之间的跨模态差距等挑战,本研究引入了一种参数高效的方法来解决这些问题,通过结合多模态提示学习和基于 Transformer 的映射网络,在预训练模型的冻结状态下实现。在几个视频问答基准测试中,我们的实验结果证明了我们的方法在性能和参数效率方面在零样本和少样本设置下的优越性。我们的代码可以通过该 https 网址获得。