BriefGPT.xyz
大模型
Ask
alpha
关键词
multimodal contexts
搜索结果 - 3
OmAgent: 复杂视频理解的多模态代理框架与任务分割
OmAgent 是一个能够在多模态环境下高效地存储和检索视频帧的系统,通过动态调用 API 和工具进行查询处理和准确性增强,可以确保鲁棒的视频理解,显著减少信息丢失。
PDF
10 days ago
超越文本:通过 MultiAPI 基准评估揭示大型语言模型的多模态能力
聊天 GPT 通过开发的 MultiAPI 数据集评估了多模态任务中大型语言模型的表现,研究发现在 API 调用决策、领域识别、功能选择和参数生成等方面存在挑战,并提出了解决这些问题的新方法,为未来 LLM 研究指明了方向。
PDF
7 months ago
面向动态音视情境的目标感知时空推理问题回答
本研究提出了一种针对音视频问答(AVQA)任务的目标感知联合时空基础网络,利用三种模态的一致性损失实现了问题感知的时空基础,增加了音频 - 视觉互动,采用了单一流结构中的融合方法,在 MUSIC-AVQA 数据集上的实验结果证明了该方法优越
→
PDF
a year ago
Prev
Next