Sep, 2023

一对一:无需视频指导的视频对话可行

TL;DR通过引入分支时间适配器(BT-Adapter),这篇研究论文提出了一种在图像 - 语言预训练模型基础上扩展视频领域的方法,实现了在视频对话中强大的视频理解能力,并在各种视频任务上取得了零样本和视频指导调优等方面的最新成果。