ICCVAug, 2023

电影理解的长程多模态预训练

TL;DR通过观察和提取电影中的长距离关系,我们介绍了一个长距离多模态预训练策略和模型,通过利用电影数据来训练可传输的多模态和跨模态编码器。在 LVU 基准测试中,我们的模型在几个任务上取得了最先进的成果,并且比以前的工作更高效地利用数据。最后,我们通过在五个不同的基准测试中设置了最新的最先进水平来评估我们模型的可转移性。