- InfiniBench:用于非常长视频理解的大规模多模态模型综合基准测试
理解长视频的困难和挑战,现有的基准测试主要关注较短的视频片段。为了弥补这一差距,我们引入了 InfiniBench,这是一个全面的、针对非常长视频理解的基准测试,它具有最长的视频持续时间、最大数量的问答对以及多样化的问题类型。通过对现有的大 - 语境长距离从语言到视觉的转换
通过扩展语言模型的上下文长度,我们实现了视频片段中的长上下文传递,使得大型多模态模型能够理解数量级更多的视觉标记,并开发了一个纯合成的长视觉基准测试,证明了 Long Video Assistant(LongVA)在处理长视频方面的优越性能 - FlexiFilm: 长视频生成与灵活条件
本研究介绍了一种针对生成长视频的新扩散模型 FlexiFilm,通过引入时间条件器和重新采样策略,实现了更一致的生成效果和解决过度曝光问题。实证结果表明 FlexiFilm 在定性和定量分析中优于竞争对手,能够生成超过 30 秒的长且一致的 - 电影聊天 +: 针对长视频问答的问题感知稀疏记忆
基于 Atkinson-Shiffrin 记忆模型与 Transformer 中的记忆承载器,通过特殊设计的记忆机制,无需额外的可训练时序模块,使用零 - shot 方法将预训练的多模态大型语言模型应用于理解长视频,提出了 MovieCha - 一致性调节的视频生成
通过四个模块的新型框架生成高质量的视频,并且能够优化每帧视频中的背景和前景的一致性。
- MovieLLM:使用 AI 生成的影片增强长视频理解能力
MovieLLM 提出了一种新颖的框架,利用 GPT-4 和文本到图像模型生成详细的脚本和对应的视觉,从而创造出长视频的合成高质量数据。该方法通过解决数据稀缺和偏见等问题,显著提高了多模态模型对复杂视频叙事的理解能力,克服了现有数据集的限制 - 基于多模态信息的时间句子定位在长视频中的基础调度
通过使用多模态信息,我们提出了一种用于处理长视频中的 Temporal Sentence Grounding 任务的 Grounding-Prompter 方法,通过引导 LLM 进行 TSG,提高了推理能力和理解 TSG 任务的性能。
- AAAI多场景广义轨迹全局图解算器结合复合节点用于多物体跟踪
该研究论文提出了一种名为 CoNo-Link 的综合节点信息传递网络,用于建模超长帧信息以进行多目标跟踪,通过将对象轨迹视为节点进行信息交互,改进了图神经网络的特征表示能力,并在多个常用数据集中表现出色。
- M3T:视频目标分割和跟踪的多尺度记忆匹配
通过提出一种新颖的,DET-R 风格的编码器 - 解码器架构,我们克服了长视频中有关小对象的数据特性所带来的挑战,并在两个复杂数据集上实现了最先进的性能。
- MM针对深度视频理解的查询感知长视频定位和关系判别
本文介绍了一种基于查询的长视频定位和关系判别方法,利用图像语言预训练模型来选择与查询相关的帧,免去了构建完整的电影级知识图谱的需要。该方法在两组电影级查询中取得了第一和第四名的位置,并且经过充分的实验证明其效果和鲁棒性。
- 针对长篇视频理解的自适应分词器的核心时间分段再探
本文旨在提供一种针对长视频的通用和自适应采样方法,通过将视频视为语义一致的片段,基于核时序分割 (KTS) 的无监督和可扩展方法对长视频进行采样和标记化。我们在视频分类和时间动作定位等长视频理解任务上评估了我们的方法,显示出相对于现有方法的 - 电影对话:从密集令牌到稀疏记忆的长视频理解
视频理解系统 MovieChat 利用大型语言模型和视频基础模型,通过引入记忆机制解决了处理长视频时的计算复杂性、内存开销和长期时间连接等挑战。
- 超越单一视频片段的视频生成
提出使用指导信息和两阶段方法来生成多样化的长视频,该方法在客观指标上比现有技术提高多达 9.5%,得到超过 80%的用户偏好。
- CVPR视频实例分割的通用框架
提出了基于查询式训练和具有前状态信息的内存模块用于序列学习的通用可变的视频实例分割(GenVIS)方法,并在多个基准测试中取得了优秀的结果。
- ECCV基于无时间感知 VQGAN 和时间敏感 Transformer 的长视频生成
本文提出了一种利用 3D-VQGAN 和 transformers 生成长视频的方法,并通过 UCF-101、Sky Time-lapse 和 Taichi-HD 数据集的 16 帧视频剪辑进行了验证,同时还展示了结合文本和音频等条件扩展的 - CVPR通过序列对比学习获取长视频的逐帧动作表示
本文提出了一种新颖的对比行动表示学习(CARL)框架,用于以自我监督的方式学习帧级行动表示,特别是针对长视频。该框架包括一个简单而高效的视频编码器,以及应用于一系列时空数据增强的新颖序列对比损失(SCL)。我们通过 FineGym,Penn - 基于跨度问答框架的自然语言视频定位再探讨
本文提出基于 VSLNet 的自然语言视频定位 (NLVL) 方法,利用基于 span 的 question answering (QA) 框架来解决长视频定位中的性能衰退问题,并通过 VSLNet-L 模型进一步提高性能。实验结果表明,该 - CVPR长视频中基于排名感知的时间注意力技能判定的优缺点
通过可学习的时间注意力模块,我们提出了一个新的模型来确定长视频的相对技能。我们的方法训练了两个注意力模块,分别关注指示更高(pros)和更低(cons)技能的视频部分,并使用新颖的排名感知损失函数。该方法在 EPIC-Skills 数据集上 - CVPR自监督事件分割的感知预测框架
本文提出了一种自我监督的、基于认知心理的预测学习框架,通过自适应学习来减少循环神经网络中灾难性遗忘的影响,在三个公共数据集上进行了广泛的实验,表明所提出的方法能够优于弱监督和其他非监督学习方法最多达 24%,并具有完全监督方法相媲美的性能。 - 级联边界回归用于时间动作检测
本文介绍了一种基于 Cascaded Boundary Regression 模型的两阶段时间性行动检测方法,通过在第一和第二阶段分别检测类不可知提议和特定操作,使用时空坐标回归来细化滑动窗口的时间边界,有效提高了检测性能。在 THUMOS