AAAIDec, 2023

READ-PVLA: 低资源视频 - 语言建模中的参数高效迁移学习的循环适配器及部分视频 - 语言对齐

TL;DR针对预训练大规模 Transformer 模型在视频 - 语言建模任务中存在的存储成本高和训练不稳定等问题,本文提出了一种轻量级适配器方法,通过引入循环计算和部分最优传输来捕捉视频帧和文本单词之间的时间关系,以及保留任务相关信息,并在多个低资源时间语言定位和视频 - 语言概括基准测试中取得显著优于现有的微调策略的效果。