BriefGPT.xyz
大模型
Ask
alpha
关键词
refcoco
搜索结果 - 4
GroundVLP:从视觉语言预训练和开放词汇对象检测中利用零样本视觉定位
通过现有的图像 - 文本配对模型和纯物体检测数据,我们提出了一种名为 GroundVLP 的简单而有效的零样本方法,该方法结合了 GradCAM 热力图和开放词汇检测器的对象提案,用于捕捉视觉环境并解决视觉定位任务中数据标注不足的挑战,实验
→
PDF
6 months ago
细粒度视觉提示
本文介绍了一种新的零样本学习框架,Fine-Grained Visual Prompting(FGVP),通过使用精确的掩码注释来改进视觉提示设计,并展示了在不同的基准测试上均优于传统方法的性能表现。
PDF
a year ago
CoupAlign:耦合词素和像素的句子掩码对称,用于图像指代分割
提出了一种名为 CoupAlign 的多级视觉语义对齐方法,通过单词 - 像素对齐和句子 - 掩码对齐相结合的方式实现了对像素的更准确的定位和分割,可以在 RefCOCO 和 G-Ref 数据集上对同类多个对象进行分辨。
PDF
2 years ago
ECCV
递归子查询构建提升单阶段视觉定位
提出一种递归子查询构建框架,解决当前一阶段视觉基础的限制,提高了长而复杂查询的精度,效果比现有一阶段基线模型在多个基准数据集上都有显著的提高。
PDF
4 years ago
Prev
Next