Jun, 2022

LAVENDER: 统一视频 - 语言理解作为遮蔽语言建模

TL;DR本文提出了一种名为 LAVENDER 的统一的视觉 - 语言框架,它使用遮蔽语言建模作为所有预训练及下游任务的共同接口,从而实现了简化的模型架构,并在 14 个视频 - 语言基准测试中取得了竞争力的表现。