OmAgent: 复杂视频理解的多模态代理框架与任务分割
利用多模态代理、统一记忆机制和零样本工具使用能力来解决视频理解中的长期时间关系问题,在多个长期视觉理解基准测试中表现出色,相比基准模型,NExT-QA 平均提升 6.6%,EgoSchema 平均提升 26.0%,缩小了开源模型与私有对应模型之间的差距。
Mar, 2024
利用一个新型的基于代理的系统,以长篇视频理解为挑战,通过交互性推理和规划来处理长时间的多模式序列,同时使用大型语言模型作为中央代理来识别和编译关键信息以回答问题,视觉语言基础模型用于翻译和检索视觉信息。在具有挑战性的 EgoSchema 和 NExT-QA 基准测试中,VideoAgent 的零样本准确率分别达到了 54.1% 和 71.3%,仅使用平均 8.4 和 8.2 帧。这些结果证明了我们方法在效果和效率上优于当前技术水平,突显了基于代理的方法在提升长篇视频理解方面的潜力。
Mar, 2024
本文介绍了一种基于代理和大型语言模型的本体匹配系统设计范例,并通过实证评估证明其在简单、复杂和少样本本体匹配任务上的性能显著优于现有系统。
Dec, 2023
该论文介绍了一种利用多模态技术实现广告视频内容结构化分析的系统,包括场景分割和多模态标记两个任务,通过视觉和文本特征相结合的方法,在 2021 年 TAAC 竞赛中获得了 0.2470 的高得分。
Aug, 2021
基于多模态大型语言模型(MLLMs)的进展引起了对基于 LLM 的自动驾驶代理的兴趣,以利用其强大的推理能力。然而,利用 MLLM 的强大推理能力来改进规划行为具有挑战性,因为规划需要超越 2D 推理的全面 3D 情境感知。为了解决这个挑战,我们的工作提出了一个全面框架,用于代理模型和 3D 驾驶任务之间的强力对齐。我们的框架以一个新颖的 3D MLLM 架构为起点,该架构使用稀疏查询将视觉表示提升和压缩为 3D,然后将其输入到 LLM 中。这种基于查询的表示使我们能够联合编码动态对象和静态地图元素(例如交通车道),为 3D 情境中的感知 - 行动对齐提供了一种简化的世界模型。我们进一步提出了 OmniDrive-nuScenes,一个新的视觉问答数据集,挑战模型在真实的 3D 情境中的全面视觉问答任务,包括场景描述、交通规则、3D 接地、反事实推理、决策制定和规划。广泛的研究结果显示了所提出的架构的有效性以及 VQA 任务对于复杂 3D 场景中的推理和规划的重要性。
May, 2024
通过使用语言作为标签并引入时间和区域标记,我们寻求统一视频理解任务的输出空间,以建立全共享的编码器 - 解码器架构,并通过大量实验证明这一简单而直接的想法在七个视频基准测试中取得了最先进的或有竞争力的结果,为更普遍的视频理解提供了新的观点。
Mar, 2024
OmniDataComposer 是一种创新的方法,用于多模态数据融合和无限数据生成,其核心突破在于引入一种协同处理和合并多模态数据输入的高效数据结构,促进模态之间的互相增强和跨模态数据校正,将视频输入转化为详尽的顺序文档,从而更容易为大型语言模型处理,为视觉内容的视频字幕创作和基于视频内容的问答任务提供了宝贵的洞察。
Aug, 2023
多模态 AI 代理通过处理和学习来自自然语言、视觉和音频输入的各种数据来指导行动,但将基于图像的数据转换为可操作结果仍然具有挑战性。本文介绍了一种多模态模型,其中包含专门为 AI 代理应用设计的功能令牌的概念,并优化为小于 1B 参数的紧凑尺寸,能够在各种边缘设备上高效运行,包括树莓派。
Apr, 2024
这篇论文介绍了 MMCTAgent,这是一个新颖的多模态批判性思维代理框架,旨在解决当前 MLLM 在复杂视觉推理任务中的固有限制。通过从人类认知过程和批判性思维中获得灵感,MMCTAgent 迭代地分析多模态信息,分解查询,计划策略,并动态发展其推理能力。此外,MMCTAgent 还融入了验证最终答案和自我反思的批判性思维元素,通过定义基于视觉的评论员并识别任务特定的评估标准,从而增强其决策能力。通过在各种图像和视频理解基准上进行严格评估,我们证明 MMCTAgent(有和无评论员)优于基础 MLLM 和其他工具增强的流水线。
May, 2024
通过在在线方式处理视频并将过去的视频信息存储在记忆库中,该研究提出了一种用于长期视频理解的高效有效模型,可以超越语言模型的上下文长度限制和 GPU 内存限制,并在多个数据集上实现了最先进的性能。
Apr, 2024