一对一：无需视频指导的视频对话可行

Sep, 2023

一对一：无需视频指导的视频对话可行

One For All: Video Conversation is Feasible Without Video Instruction Tuning

Ruyang Liu, Chen Li, Yixiao Ge, Ying Shan, Thomas H. Li...

TL;DR通过引入分支时间适配器（BT-Adapter），这篇研究论文提出了一种在图像 - 语言预训练模型基础上扩展视频领域的方法，实现了在视频对话中强大的视频理解能力，并在各种视频任务上取得了零样本和视频指导调优等方面的最新成果。

Abstract

The recent progress in large language models (LLM) has spurred various advancements in image-language conversation agents, while how to build a proficient video-based dialogue system is still under exploration. C

large language models video-based dialogue system branching temporal adapter temporal modeling video understanding capabilities

发现论文，激发创造

Tem-adapter: 图像文本预训练方法用于视频问答

通过引入 Tem-Adapter，结合视觉时间对齐器和文本语义对齐器，利用图像预训练的知识来弥合图像和视频领域之间的差距，以实现学习时间动力学和复杂语义的目的，并通过两个 VideoQA 基准测试验证了该方法的有效性。

Aug, 2023

Video-ChatGPT: 通过大型视觉和语言模型实现详细视频理解

介绍了基于视觉编码器与大型语言模型相结合的 Video-ChatGPT 模型，用于理解和生成关于视频的人类对话，并介绍了使用手动和半自动管道获得的新数据集，可用于训练和评估基于视频的对话模型，并在定量评估框架下分析了该模型的优劣。

Jun, 2023

VL-Adapter：用于视觉语言任务的参数效率转移学习

本文提出基于 adapter 的参数高效迁移学习技术，以 VL-BART 和 VLT5 为例，在图像文本和视频文本基准测试上统一多任务设置，通过权重共享提高 adapter 的效率和性能，在图像文本任务和视频文本任务中将 adapter 的使用提升至总参数的 4.18% 和 3.39%，匹配了整个模型微调的性能，同时对 adapter 与任务特定提示的组合及 V&L 预训练对 adapter 的影响进行了综合分析。

Dec, 2021

LiteVL：增强空间 - 时间建模的高效视频 - 语言学习

本文提出 LiteVL 模型，结合 BLIP 图像语言模型，通过使用动态时态缩放，给图像编码器添加时间注意力模块，并提出非参数池化机制，以自适应地重新加权文本条件下的细粒度视频嵌入，取得了良好的性能，即使没有进行任何视频 - 语言预训练。

Oct, 2022

BiLL-VTG: 融合大型语言模型和轻量级视觉工具进行基于视频的文本生成

通过使用 BiLL-VTG 框架，结合大型语言模型 (LLMs)、结构化场景图生成和描述性图像标题生成两种视觉工具，通过对特定视频事件进行多次推理步骤，实现对用户指令的文本回复，并通过 InsOVER 算法使用语言指令定位相应的视频事件，从而使 LLMs 能够与长视频进行交互，实验表明该框架优于预训练模型 Flamingo-80B，达到了最先进的性能。

Oct, 2023

增强型大语言模型视频助理

本文旨在开发一个新颖的多模态基础模型 ——Valley: Video Assistant with Large Language model Enhanced ability，实现对视频、图像和语言的感知，并通过 ChatGPT 设计的多任务指令追随视频数据，在人类和视频之间进行各种任务定向的对话，为多语言的视频助手提供高度有效的支持。

Jun, 2023

适配器机器人：多功能可控对话模型

本研究提出了 Adapter-Bot，一种对话模型，使用不同的适配器触发按需的对话技能，并实现不间断集成和无缝利用多种知识源，通过与现有最先进的对话模型进行比较的自动评估来评估我们的模型。

Aug, 2020

ST-Adapter：基于转移学习的高效图像到视频参数适配器

本文针对跨模态参数高效的图像到视频传递学习进行了研究，并提出了一种新的适应器 ——Spatio-Temporal Adapter，可以在较小的成本下实现有关动态视频内容的空时推理能力，并在视频动作识别任务上匹配或超越完全微调策略和最先进的视频模型，同时又具有参数效率的优势。

Jun, 2022

Mug-STAN：适用于通用视频理解的图像语言预训练模型的调整

我们在这篇论文中研究了从模型和数据的角度来展示图像到视频转换的挑战，并提出了一种名为 Mug-STAN 的简单而有效的框架，通过解决非一般化时序建模和部分不匹配的视频文本数据的问题，将图像 - 文本模型扩展到多样化的视频任务和视频 - 文本数据。

Nov, 2023

Tip-Adapter：面向视觉语言模型的无需训练的 CLIP 适配器

该论文提出了一种名为 Tip-Adapter 的基于 CLIP 的适配器模型，通过无需训练的键值缓存模型构建配适器权重，极大地提升了 CLIP 的少样本分类能力。

Nov, 2021