Mar, 2023

MuLTI: 多路径采样与多项选择模型实现高效视频和语言理解

TL;DR本文提出了一种高精度、内存高效的视频和语言理解模型 MuLTI,通过特征采样和注意力模块实现了高效而有效的特征融合,引入了基于注意力的适配器来微调编码器的浅层特征以提高模型性能,最后引入了一种新的预训练任务 Multiple Choice Modeling 来增强模型对齐视频和文本的能力。该模型在多个数据集上实现了最新的性能,实现和预训练模型将被发布。