May, 2022

利用图像描述符的语言模型是强的少样本视频语言学习器

TL;DR本文提出了通过图像和语言模型进行少样本学习的视频语言学习器(VidIL),它在视频描述、视频问答、视频描述检索和视频未来事件预测等多种视频语言任务中表现出强大的性能,并且能够在使用上下文中的几个例子来生成目标输出,进而大大提高视频未来事件预测的准确率。