multimodal queries | BriefGPT

关键词multimodal queries

搜索结果 - 5

用多模态查询在视频中定位事件
本研究介绍了一个用于视频事件定位的多模态查询基准（ICQ），该基准以多模态语义查询为输入，包括一个描述事件的参考图像和一个用于调整图像语义的修正文本。通过对 4 种风格的参考图像和 5 种类型的修正文本进行系统评估，我们提出了 3 种适应方
PDF22 days ago
跟踪一切猛禽 (TAR)
开发了一种名为 Track Anything Raptor (TAR) 的先进空中飞行器系统，利用多模态请求 (如文本、图像和点击) 检测、分割和跟踪用户感兴趣的对象，并使用 DINO、CLIP 和 SAM 等先进模型估计查询对象的相对姿态
PDF2 months ago
CVPR多模式图像检索的概率组合嵌入
本文在图像检索中，研究了使用多个多模态查询的检索场景，并提出了一种新的多模态概率组合器，用于检索具有多个多模态查询指定语义概念的目标图像，同时在基于 MS-COCO 数据集的新基准上评估了我们的模型表现。
PDF2 years ago
CVPR面向图像检索的多模态查询嵌入算法
本文提供了一种检测基于多模态查询的图像检索任务的新数据集 SIMAT，使用图像 / 文本匹配预测器来评估基于图像 / 文本匹配策略训练的多模态嵌入空间的几何属性，并研究了利用预训练通用句子编码器（FastText，LASER 和 LaBSE
PDF3 years ago
ICCV多模式查询图像检索时传递主题语义和指示区域信息
本文提出了一种新的多模态查询图像检索系统，并将用户同时使用自然语言和鼠标轨迹来表达所需目标图像的特征，本系统在现有图像检索模型的基础上进行了简单的修改，以更好地考虑所提供的空间引导。实验结果表明，本模型能够有效地利用空间引导，相比于仅使用文
PDF3 years ago