Jan, 2024

SNP-S3: 共享网络预训练和显著语义增强用于多种视频文本任务

TL;DR我们提出了一种通过直接在原始数据上进行预训练以促进各种下游视频文本任务的跨模态视频表示学习框架,并在预训练框架和代理任务方面做出了主要贡献。