Shotluck Holmes：用于视频字幕和摘要的高效小规模大语言视觉模型家族

May, 2024

Shotluck Holmes：用于视频字幕和摘要的高效小规模大语言视觉模型家族

Shotluck Holmes: A Family of Efficient Small-Scale Large Language Vision Models For Video Captioning and Summarization

Richard Luo, Austin Peng, Adithya Vasudev, Rishabh Jain

TL;DR我们提出一种名为 Shotluck Holmes 的高效大型语言视觉模型 (LLVMs)，通过改进预训练和数据收集策略，扩展现有小型 LLVMs 的能力，从仅能理解一张图片到能够理解连续的帧序列，在 Shot2Story 视频字幕和摘要任务上取得比最先进结果更好的性能，同时模型尺寸更小、计算效率更高。

Abstract

video is an increasingly prominent and information-dense medium, yet it poses substantial challenges for language models. A typical video consists of a sequence of shorter segments, or →

video language model shots video summarization captioning

发现论文，激发创造

利用语言引导的自监督视频摘要生成方法，考虑视频多样性的文本语义匹配

通过使用大型语言模型作为引导，本文提出了一种新颖的自监督视频摘要框架，通过生成视频帧的字幕，并将其合成为文本摘要，衡量帧字幕和文本摘要之间的语义距离，最终选择与文本摘要相似的帧来生成摘要视频。该方法在视频摘要任务中取得了有竞争力的结果，并为视频摘要领域开辟了新的道路。

May, 2024

Shot2Story20K：多割视频全面理解的新基准测试

通过一个多镜头视频理解基准（Shot2Story20K）的详细镜头级标题和全面视频摘要，提供了一种更好的视频语义理解方法，包括可视化信号和人类叙述的标题，摘要，检索以及摘要生成，这将显著提升现有视频理解任务的性能，并促进了视频理解中对详细摘要的未开发研究领域。

Dec, 2023

大规模语言模型在视频摘要预训练中的扩展

利用大型语言模型生成大规模的视频摘要数据集，提出了一种新的视频摘要模型，并呈现了一个由专业人员注释的高质量摘要的基准数据集，实验证明该方法在多个基准测试中达到了最新的最佳效果。

Apr, 2024

VideoLLM: 用大型语言模型对视频序列建模

本文提出了一种名为 VideoLLM 的新框架，它利用了自然语言处理（NLP）预训练 LLMs 的序列推理能力来进行视频序列理解。通过精心设计的模态编码器和语义转换器，将不同来源的输入转换为统一的标记序列，然后将其馈入仅解码的 LLM 中。在实验中，作者评估了 VideoLLM 在多个任务上的表现，证明了 LLMs 的理解和推理能力可以有效地转移到视频理解任务中。

May, 2023

长短期记忆视频摘要

本文提出了一种针对视频进行自动化重点帧或子镜头选择的新型监督学习技术，其将问题视为顺序数据上的结构化预测问题，主要想法是利用 LSTM（长短时记忆），该专用网络类型可模拟视频摘要任务中包含的可变范围依赖性，详细分析证明了模型设计的合理性，通过引入领域适应技术，我们还介绍了应对训练复杂学习模型所需大量注释数据需求的技术。

May, 2016

数百万视频上的视觉语言模型蒸馏

本研究利用合成的教学数据对图像语言基准进行微调，生成高质量的视频标题，构建适应视频和语言的模型，并在多个视频 - 语言基准上取得了显著结果。

Jan, 2024

基于大语言模型的视频理解研究综述

通过综述表明，利用大型语言模型（LLMs）的能力，视频理解工具的发展具有巨大的潜力，并且在空间时间推理和通识知识方面表现出令人惊讶的优势，还展示了在各个领域中应用的强大可扩展性和多功能性。

Dec, 2023

利用图像描述符的语言模型是强的少样本视频语言学习器

本文提出了通过图像和语言模型进行少样本学习的视频语言学习器（VidIL），它在视频描述、视频问答、视频描述检索和视频未来事件预测等多种视频语言任务中表现出强大的性能，并且能够在使用上下文中的几个例子来生成目标输出，进而大大提高视频未来事件预测的准确率。

May, 2022

长话短说：针对长视频问答的摘要搜索方法

探究语言模型在长时间多媒体叙述中的零 - shot 推理能力，提出了一种用于叙述视频问答的框架 Long Story Short，通过首先将视频的叙述进行简化处理，然后寻找与问题相关的视频部分，并运用 CLIPCheck 来增强视觉匹配，实现了在长视频问答中优于最先进有监督模型的表现，突显了零 - shot 问题回答在长视频中的潜力。

Nov, 2023

使用大型语言模型的流式长视频理解

这篇论文介绍了 VideoStreaming，一种用于视频理解的先进视觉语言大型模型 (VLLM)，它能够通过编码和自适应选择的少量视频标记流式地理解任意长度的视频。

May, 2024