BriefGPT.xyz
Ask
alpha
关键词
multimodal queries
搜索结果 - 5
用多模态查询在视频中定位事件
本研究介绍了一个用于视频事件定位的多模态查询基准(ICQ),该基准以多模态语义查询为输入,包括一个描述事件的参考图像和一个用于调整图像语义的修正文本。通过对 4 种风格的参考图像和 5 种类型的修正文本进行系统评估,我们提出了 3 种适应方
→
PDF
22 days ago
跟踪一切猛禽 (TAR)
开发了一种名为 Track Anything Raptor (TAR) 的先进空中飞行器系统,利用多模态请求 (如文本、图像和点击) 检测、分割和跟踪用户感兴趣的对象,并使用 DINO、CLIP 和 SAM 等先进模型估计查询对象的相对姿态
→
PDF
2 months ago
CVPR
多模式图像检索的概率组合嵌入
本文在图像检索中,研究了使用多个多模态查询的检索场景,并提出了一种新的多模态概率组合器,用于检索具有多个多模态查询指定语义概念的目标图像,同时在基于 MS-COCO 数据集的新基准上评估了我们的模型表现。
PDF
2 years ago
CVPR
面向图像检索的多模态查询嵌入算法
本文提供了一种检测基于多模态查询的图像检索任务的新数据集 SIMAT,使用图像 / 文本匹配预测器来评估基于图像 / 文本匹配策略训练的多模态嵌入空间的几何属性,并研究了利用预训练通用句子编码器(FastText,LASER 和 LaBSE
→
PDF
3 years ago
ICCV
多模式查询图像检索时传递主题语义和指示区域信息
本文提出了一种新的多模态查询图像检索系统,并将用户同时使用自然语言和鼠标轨迹来表达所需目标图像的特征,本系统在现有图像检索模型的基础上进行了简单的修改,以更好地考虑所提供的空间引导。实验结果表明,本模型能够有效地利用空间引导,相比于仅使用文
→
PDF
3 years ago
Prev
Next