BriefGPT.xyz
Ask
alpha
关键词
vision-language clip model
搜索结果 - 1
PosSAM: 全景开放词汇片段检测
提出了一种开放词汇的全景分割模型,通过端到端框架有机地结合了 Segment Anything Model (SAM) 和视觉 - 语言 CLIP 模型的优势。通过使用局部判别汇聚模块(LDP),克服了 SAM 的局限性,并引入了面向掩膜的
→
PDF
4 months ago
Prev
Next