ST-LLM：大型语言模型是有效的时间学习器

Mar, 2024

ST-LLM：大型语言模型是有效的时间学习器

ST-LLM: Large Language Models Are Effective Temporal Learners

Ruyang Liu, Chen Li, Haoran Tang, Yixiao Ge, Ying Shan...

TL;DR通过在 Large Language Models（LLMs）中添加 Spatial-Temporal 序列建模，提高视频理解能力，并通过动态掩蔽策略和全局 - 局部输入模块提升效率和稳定性，从而在 VideoChatGPT-Bench 和 MVBench 上建立了新的最优结果。

Abstract

large language models (LLMs) have showcased impressive capabilities in text comprehension and generation, prompting research efforts towards video LLMs to facilitate human-AI interaction at the video level. However, how to effectively encode and understand videos in →

large language models video-based dialogue systems video understanding spatial-temporal sequence modeling efficiency and stability

发现论文，激发创造

VideoLLM: 用大型语言模型对视频序列建模

本文提出了一种名为 VideoLLM 的新框架，它利用了自然语言处理（NLP）预训练 LLMs 的序列推理能力来进行视频序列理解。通过精心设计的模态编码器和语义转换器，将不同来源的输入转换为统一的标记序列，然后将其馈入仅解码的 LLM 中。在实验中，作者评估了 VideoLLM 在多个任务上的表现，证明了 LLMs 的理解和推理能力可以有效地转移到视频理解任务中。

May, 2023

LongVLM：通过大型语言模型实现高效长视频理解

使用长视频理解任务中的 Large Language Models（LLMs）面临的挑战，本文提出了一种名为 LongVLM 的 VideoLLM 模型，通过分解长视频为短期片段，并使用分层令牌合并模块编码局部特征，维护顺序，整合全局语义信息，实现对长期视频的全面理解。实验证明了该模型在视频理解任务中的优越性能。

Apr, 2024

大型语言模型如何理解时空数据？

通过提出 STG-LLM 方法，本文解决了序列文本与复杂空间 - 时间数据之间的不匹配问题，通过 STG-Tokenizer 和 STG-Adapter，将大型语言模型的能力应用于空间 - 时间预测，取得了与专用方法相媲美的竞争性性能。

Jan, 2024

基于大语言模型的视频理解研究综述

通过综述表明，利用大型语言模型（LLMs）的能力，视频理解工具的发展具有巨大的潜力，并且在空间时间推理和通识知识方面表现出令人惊讶的优势，还展示了在各个领域中应用的强大可扩展性和多功能性。

Dec, 2023

视频 LLM-online：用于流媒体视频的在线视频大语言模型

通过学习视频流进行大规模语言模型增强，提供视觉能力及实时对话功能，以应对视频流输入的视频流对话学习目标、数据生成方案和优化推断流程的新颖学习框架。

Jun, 2024

时空大型语言模型用于交通预测

提出了一种基于空间 - 时间大型语言模型（ST-LLM）的交通预测方法，通过重新定义位置上的时间步长作为标记，并结合空间 - 时间嵌入模块来学习标记的空间位置和全局时间表示，在提供统一的空间和时间信息的基础上，进一步提出了一种部分冻结的 LLM 关注策略，用于捕捉交通预测的空间 - 时间依赖关系。综合实验表明 ST-LLM 在真实交通数据集上优于最先进的模型，同时在少样本和零样本预测场景中也表现出鲁棒性。

Jan, 2024

STBench: 大型语言模型在时空分析中的能力评估

该论文通过评估大型语言模型的时空数据理解能力，将其能力分解为知识理解、时空推理、准确计算和下游应用四个维度，并通过构建基准数据集 STBench 以及对 13 个语言模型的评估实验，揭示现有语言模型在知识理解和时空推理任务上表现出色，且通过在上下文学习、思维链提示和微调方面有进一步优化的潜力。

Jun, 2024

从图像到视频，多模态 LLMs 需要什么？

提出一种高效的方法，通过调整图像多模态语言模型的图像融合模块，利用图像多模态语言模型的先验知识，实现从图像到视频多模态语言模型的资源高效转换，从而提高视频多模态语言模型的时间理解能力，以更少的数据和资源进行训练。

Apr, 2024

VTimeLLM: 赋能 LLM 捕捉视频片段

该研究提出了 VTimeLLM，一种新型的视频理解模型，通过采用三阶段的训练策略，在细粒度的视频时刻理解和时间边界推理方面取得显著性能优势，能够有效地在视频理解任务中超越现有的 Video LLMs 模型。

Nov, 2023

VideoLLaMA 2: 在视频 LLMs 中推进时空建模与音频理解

本论文介绍了一种名为 VideoLLaMA 2 的视频大型语言模型，它通过嵌入空间 - 时间卷积 (STC) 连接器和联合训练音频分支来增强视频和音频任务中的空间 - 时间建模和音频理解能力，并在多个任务上展示了竞争性结果，进一步提升了多模态理解能力，为智能视频分析系统设定了新的标准。

Jun, 2024