ChatVideo: 基于 Tracklet 的多模式通用视频理解系统
我们设计了一种有效的视觉 - 语言表示方法,同时为追踪问题构建了一个大型带有语言注释的数据库。通过引入异构架构搜索和模态混合器等核心技术,以及对不同模态之间进行对比损失的引入,我们能够显著改善追踪问题的解决方案,并期望将更多注意力转向视觉 - 语言追踪,为未来的多样化多模态消息追踪开辟更多可能性。
Jul, 2023
本研究介绍了一种以视频为中心的语音理解系统 VideoChat,它通过可学习的神经接口将视频基础模型和大型语言模型集成起来,在时空推理、事件定位和因果关系推断等方面表现出色。通过使用视频为中心的指令数据集,我们为这个系统提供了有指导性的调整建议,这个数据集由成千上万个视频和详细的描述和会话组成,突出了时空推理和因果关系,为训练以聊天为中心的视频理解系统提供了有价值的资源。初步的定性实验揭示了我们的系统在广泛的视频应用中的潜力,并为未来的研究设置了标准。
May, 2023
提出了一种名为 “Streaming Vision Transformer” 的流式视频架构,利用具有内存功能的时间感知空间编码器产生帧级特征,供基于帧的视频任务使用;然后将帧级特征输入到与任务相关的时间解码器中,获得用于序列化任务的时空特征,该模型在行动识别任务中具有最先进的准确度,并在基于帧的多目标跟踪任务中具有竞争优势。
Mar, 2023
介绍了基于视觉编码器与大型语言模型相结合的 Video-ChatGPT 模型,用于理解和生成关于视频的人类对话,并介绍了使用手动和半自动管道获得的新数据集,可用于训练和评估基于视频的对话模型,并在定量评估框架下分析了该模型的优劣。
Jun, 2023
本研究通过开发评估协议和引入一种基于对象为中心的变压器视频识别架构,针对大规模数据集进行长型视频理解任务的研究,并展示了其在 7 项不同任务上的性能显著优于现有短期模型的结果,同时在 AVA 数据集上也优于可比较的最新研究成果。
Jun, 2021
该研究提出了一种简单、灵活且有效的视觉 - 语言(VL)跟踪管道,称为 MMTrack,它将 VL 跟踪视为一个标记生成任务,并通过将语言描述和边界框序列化为一系列离散标记来实现。通过避免多个子任务的学习和手动设计的损失函数,该设计范式极大地降低了 VL 跟踪建模的复杂性,并允许跟踪器使用简单的交叉熵损失作为统一的优化目标。在 TNL2K、LaSOT、LaSOT_ext 和 OTB99-Lang 基准测试上的广泛实验表明,与其他最先进的方法相比,我们的方法取得了令人满意的结果。
Aug, 2023
Chat-UniVi 是一个统一的视觉 - 语言模型,能够理解和参与涉及图像和视频的对话,并通过一种统一的视觉表示来实现。该模型利用一组动态视觉令牌来统一表示图像和视频,同时具备捕捉图像的空间细节和视频的全面时间关系所需的能力。Chat-UniVi 在包含图像和视频的混合数据集上进行训练,无需任何修改即可直接应用于涉及两种介质的任务,并在广泛的实验结果中一直优于专门设计用于图像或视频的现有方法。
Nov, 2023
我们介绍 InternVideo2,这是一种新的视频基础模型(ViFM),在动作识别、视频文本任务和以视频为中心的对话中实现了最先进的性能。我们的方法采用渐进训练范式,统一了掩码视频令牌重建、跨模态对比学习和下一个令牌预测的不同自我或弱监督学习框架。不同的训练阶段通过不同的预训练任务引导我们的模型捕捉不同层次的结构和语义信息。在数据层面上,我们通过对视频进行语义分割和生成视频 - 音频 - 语音字幕来优先考虑时空一致性,从而提高了视频和文本之间的对齐性。我们为 InternVideo2 扩展了数据和模型规模。通过广泛的实验证明了我们的设计,并展示了在 60 多个视频和音频任务上的最先进性能。值得注意的是,我们的模型在各种与视频有关的字幕、对话和长期视频理解基准上优于其他模型,凸显了它在推理和理解长时间上下文方面的能力。代码和模型可在此 URL 获取。
Mar, 2024
该论文介绍了一种利用多模态技术实现广告视频内容结构化分析的系统,包括场景分割和多模态标记两个任务,通过视觉和文本特征相结合的方法,在 2021 年 TAAC 竞赛中获得了 0.2470 的高得分。
Aug, 2021
通过在在线方式处理视频并将过去的视频信息存储在记忆库中,该研究提出了一种用于长期视频理解的高效有效模型,可以超越语言模型的上下文长度限制和 GPU 内存限制,并在多个数据集上实现了最先进的性能。
Apr, 2024