ST-LLM:大型语言模型是有效的时间学习器
本文提出了一种名为 VideoLLM 的新框架,它利用了自然语言处理(NLP)预训练 LLMs 的序列推理能力来进行视频序列理解。通过精心设计的模态编码器和语义转换器,将不同来源的输入转换为统一的标记序列,然后将其馈入仅解码的 LLM 中。在实验中,作者评估了 VideoLLM 在多个任务上的表现,证明了 LLMs 的理解和推理能力可以有效地转移到视频理解任务中。
May, 2023
使用长视频理解任务中的 Large Language Models(LLMs)面临的挑战,本文提出了一种名为 LongVLM 的 VideoLLM 模型,通过分解长视频为短期片段,并使用分层令牌合并模块编码局部特征,维护顺序,整合全局语义信息,实现对长期视频的全面理解。实验证明了该模型在视频理解任务中的优越性能。
Apr, 2024
通过提出 STG-LLM 方法,本文解决了序列文本与复杂空间 - 时间数据之间的不匹配问题,通过 STG-Tokenizer 和 STG-Adapter,将大型语言模型的能力应用于空间 - 时间预测,取得了与专用方法相媲美的竞争性性能。
Jan, 2024
通过综述表明,利用大型语言模型(LLMs)的能力,视频理解工具的发展具有巨大的潜力,并且在空间时间推理和通识知识方面表现出令人惊讶的优势,还展示了在各个领域中应用的强大可扩展性和多功能性。
Dec, 2023
通过学习视频流进行大规模语言模型增强,提供视觉能力及实时对话功能,以应对视频流输入的视频流对话学习目标、数据生成方案和优化推断流程的新颖学习框架。
Jun, 2024
提出了一种基于空间 - 时间大型语言模型(ST-LLM)的交通预测方法,通过重新定义位置上的时间步长作为标记,并结合空间 - 时间嵌入模块来学习标记的空间位置和全局时间表示,在提供统一的空间和时间信息的基础上,进一步提出了一种部分冻结的 LLM 关注策略,用于捕捉交通预测的空间 - 时间依赖关系。综合实验表明 ST-LLM 在真实交通数据集上优于最先进的模型,同时在少样本和零样本预测场景中也表现出鲁棒性。
Jan, 2024
该论文通过评估大型语言模型的时空数据理解能力,将其能力分解为知识理解、时空推理、准确计算和下游应用四个维度,并通过构建基准数据集 STBench 以及对 13 个语言模型的评估实验,揭示现有语言模型在知识理解和时空推理任务上表现出色,且通过在上下文学习、思维链提示和微调方面有进一步优化的潜力。
Jun, 2024
提出一种高效的方法,通过调整图像多模态语言模型的图像融合模块,利用图像多模态语言模型的先验知识,实现从图像到视频多模态语言模型的资源高效转换,从而提高视频多模态语言模型的时间理解能力,以更少的数据和资源进行训练。
Apr, 2024
该研究提出了 VTimeLLM,一种新型的视频理解模型,通过采用三阶段的训练策略,在细粒度的视频时刻理解和时间边界推理方面取得显著性能优势,能够有效地在视频理解任务中超越现有的 Video LLMs 模型。
Nov, 2023
本论文介绍了一种名为 VideoLLaMA 2 的视频大型语言模型,它通过嵌入空间 - 时间卷积 (STC) 连接器和联合训练音频分支来增强视频和音频任务中的空间 - 时间建模和音频理解能力,并在多个任务上展示了竞争性结果,进一步提升了多模态理解能力,为智能视频分析系统设定了新的标准。
Jun, 2024