Oct, 2021

一种 CLIP 增强的视频 - 语言理解方法

TL;DR本技术报告总结了我们针对 Video-And-Language Understanding Evaluation(VALUE)挑战(此网址 https://...)的方法。我们提出了 CLIP-Enhanced 方法,将图像 - 文本预训练知识纳入到下游的视频 - 文本任务中,并结合其他几种改进的设计,使我们的方法在 VALUE 基准上提高了 2.4%(从 57.58 到 60.00 的 Meta-Ave 得分),超越了现有技术的水平。