BriefGPT.xyz
Ask
alpha
关键词
pixel-wise object perceptions
搜索结果 - 1
多模态指导的细粒度视觉感知语言模型优化
提出了 AnyRef 模型,它能从多模态参考中生成像素级的物体感知和自然语言描述,从而提供更大的灵活性,超越了文本和区域提示,无需特定的设计。通过提出的重新聚焦机制,生成的定位输出可以更好地聚焦在参考对象上,从而隐含地融入了像素级的监督。该
→
PDF
4 months ago
Prev
Next