ICLRDec, 2020

参数高效的多模态变压器用于视频表示学习

TL;DR本研究针对音视频表示学习中的多模态转换器,通过分解模态特定和模态共享部分,基于低秩逼近提出了一种新的参数共享方案来降低其参数,并提出一种基于 CNN 嵌入空间的实例相似性负采样方法,可以将模型从头开始训练,并通过预先训练的方式在 Kinetics-700 上演示了我们的方法。