LLMVA-GEBC: 带通用事件边界字幕视频适配器的大型语言模型

CVPRJun, 2023

LLMVA-GEBC: 带通用事件边界字幕视频适配器的大型语言模型

LLMVA-GEBC: Large Language Model with Video Adapter for Generic Event Boundary Captioning

Yunlong Tang, Jinrui Zhang, Xiangchen Wang, Teng Wang, Feng Zheng

TL;DR本文详细介绍了我们在 CVPR 2023 通用事件边界字幕（GEBC）比赛中的得奖作品，提出了 LLMVA-GEBC 模型，该模型采用预训练 LLM 生成高质量的人类式字幕，在训练固定的视觉特征提取和 LLM 同时采用视频 Q-former 作为适配器以适应 GEBC 任务，最终在测试集上取得了 76.14 分的高得分并获得了第一名。

Abstract

Our winning entry for the cvpr 2023 generic event boundary captioning (GEBC) competition is detailed in this paper. Unlike conventional video captioning tasks, GEBC demands that the captioning model possess an un

cvpr generic event boundary captioning llmva-gebc pretrained llm q-former

发现论文，激发创造

用于通用事件边界字幕生成的双流 Transformer

本文介绍了我们在 CVPR2022 Generic Event Boundary Captioning 竞赛中的冠军方案，提出了一种名为 Dual-Stream Transformer 的模型，利用三个预训练模型从不同颗粒度提取视频特征以辅助生成说说内容，设计了词级集成策略以提升生成质量，在 GEBC 测试集上取得了良好的效果。

Jul, 2022

GEB+: 通用事件边界字幕、关联和检索基准

本文介绍了一个新的数据集 Kinetic-GEB+，该数据集有助于通过状态更改促进视频的细粒度、鲁棒性和类人理解，还设计了新的 TPD 建模方法，可使视觉差异的表示和精确定位状态更改得到显著的性能改进。

Apr, 2022

CVPR'2021 Kinetics-GEBD 挑战赛优胜：对比学习方法

本论文提出了一种基于对比学习的方法来解决通用事件边界检测（GEBD）的问题。通过使用时间自相似矩阵（Temporal Self-similarity Matrix）来作为信息瓶颈，该方法能够有效地提高模型性能并准确地检测到事件边界。

Jun, 2021

MAE-GEBD: 赢得 CVPR'2023 LOVEU-GEBD 挑战

本文在去年 MAE-GEBD 方法的基础上，通过调整数据处理策略和损失函数，将伪标签应用于更大的数据集，并尝试许多实验，将焦点损失应用于困难样本并改善模型性能。最后，我们改进了去年使用的分割对齐策略，根据视频的边界密度和持续时间动态调整分割对齐方法，让模型可以在不同情况下更加灵活和适用，并在 Kinetics-GEBD 测试集上获得了 86.03％的 F1 分数，与我们 2022 年的 Kinetics-GEBD 方法相比，F1 分数提高了 0.09％。

Jun, 2023

通用事件边界检测的端到端压缩视频表示学习

该研究提出了一种基于压缩视频表示学习的端到端事件边界检测新方法，该方法利用压缩域中的丰富信息进行特征提取和边界检测，并在 Kinetics-GEBD 数据集上进行了广泛的实验，取得了与最先进方法相当的结果，并具有更快的运行速度。

Mar, 2022

局部压缩视频流学习用于通用事件边界检测

使用压缩视频表示学习方法进行事件边界检测，利用压缩域中的丰富信息，提取 P 帧特征并使用轻量级 ConvNets 和时序关系捕捉器进行特征表示精炼，最后使用简单分类器确定视频序列的事件边界。

Sep, 2023

BiLL-VTG: 融合大型语言模型和轻量级视觉工具进行基于视频的文本生成

通过使用 BiLL-VTG 框架，结合大型语言模型 (LLMs)、结构化场景图生成和描述性图像标题生成两种视觉工具，通过对特定视频事件进行多次推理步骤，实现对用户指令的文本回复，并通过 InsOVER 算法使用语言指令定位相应的视频事件，从而使 LLMs 能够与长视频进行交互，实验表明该框架优于预训练模型 Flamingo-80B，达到了最先进的性能。

Oct, 2023

LLM4VG：大型语言模型对视频定位的评估

近年来，研究人员试图调查 LLM 在处理视频方面的能力，并提出了几种视频 LLM 模型。然而，LLM 在处理视频对齐（VG）方面的能力仍然不清楚，也没有在文献中进行探索。为了填补这一空白，本文提出了 LLM4VG 基准测试，对不同的 LLM 在视频对齐任务上的性能进行系统评估。基于我们提出的 LLM4VG，我们设计了大量实验，检查了两组视频 LLM 模型在视频对齐上的表现：（i）基于文本 - 视频对训练的视频 LLM（标记为 VidLLM），以及（ii）与预训练的视觉描述模型（如视频 / 图像字幕模型）结合的 LLM。我们提出了整合 VG 指令和来自不同类型生成器的描述的方法，包括用于直接视觉描述的基于字幕的生成器和用于信息增强的基于 VQA 的生成器。我们还对各种 VidLLM 进行了全面比较，并探讨了不同视觉模型、LLM、提示设计等的影响。我们的实验评估得出了两个结论：（i）现有的 VidLLM 离实现令人满意的视频对齐性能还有很长的路要走，需要进一步微调这些模型以包含更多的与时间相关的视频任务；（ii）LLM 和视觉模型的组合显示出初步的视频对齐能力，通过采用更可靠的模型和进一步的提示指导，这种能力具有可观的改进潜力。

Dec, 2023

REVECA -- 基于丰富编解码器框架的视频事件字幕生成器

本文描述了一种用于长视频理解工作坊中的通用边界事件字幕挑战的方法。我们设计了一个视频事件字幕生成器的丰富编 - 解码器框架 (REVECA)，该框架利用视频的时空信息来生成相应的事件边界字幕。REVECA 利用帧位置嵌入来合并事件边界前后的信息。此外，它采用时间段网络和基于时间的成对差方法提取特征以学习时间信息。采用了注意池化过程的语义分割掩模来学习事件的主题。最后，应用了 LoRA 来微调图像编码器以提高学习效率。在 Kinetics-GEBC 测试数据上，REVECA 的平均得分为 50.97，比基准方法提高了 10.17。

Jun, 2022

面向通用事件边界检测的运动感知自我监督

该研究提出了一种简化的自监督方法并加入可区分的运动特征学习模块，用于识别视频中的 Generic Event Boundary Detection 问题。在 Kinetics-GEBD 和 TAPOS 数据集上的实验证明了该方法的可行性和有效性，并展示了该简单的自监督方法学习运动特征的无需显式的预文本任务。

Oct, 2022