关键词open-vocabulary semantic segmentation
搜索结果 - 13
- CVPR图像嵌入平衡的开放词汇语义分割
提出了一种名为 EBSeg 的开放词汇语义分割框架,利用自适应平衡解码器和语义结构一致性损失来解决模型在训练和新类别之间存在的语义信息差异问题。通过生成不同的图像嵌入表征用于训练和新类别以及优化基于 CLIP 的模型的泛化能力,该方法在各种 - 基于超球面空间的参数高效微调用于开放词汇语义分割
使用对称参数高效微调策略在超球面空间中进行,H-CLIP 实现了开放式词汇语义分割的新 SOTA 结果,只需更新 CLIP 总参数的约 4%。
- 注重邻居:无需训练的开放词汇语义分割
借鉴了 CLIP 模型,并通过自适应 CLIP 的可视化 transformer 来强化感知,提出了一种新的方法 NACLIP 用于训练自由的 open-vocabulary semantic segmentation (OVSS),在 8 - CVPR无需训练的离线扩散增强原型生成开放词汇分词
该论文介绍了一种用于开放词汇语义分割的无需训练的扩散增强方法(FreeDA),通过扩散模型的能力来可视化生成概念并通过局部 - 全局相似性将无类别区域与语义类别匹配,从而在五个数据集上实现了超过 7.0 平均 IoU 点的最先进性能,而无需 - GOV-NeSF: 通用开放词汇神经语义领域
通过引入 Generalizable Open-Vocabulary Neural Semantic Fields (GOV-NeSF),我们提出了一种对 3D 场景进行泛化的隐式表示方法,显著提升了 2D 和 3D 开放词汇语义分割的性能 - CVPR基于基础模型的图像匹配:开放词汇语义分割的新视角
基于视觉基于模型,提出了一种关系感知的单模态匹配 (OVS) 框架,用于解决像素分组和区域识别方法中图像特征与类别标签之间的误匹配问题,并在三个基准测试中展现出大幅度优势。
- 基于多粒度跨模态对齐的开放词汇语义分割学习
提出了一种多粒度跨模态对齐 (MGCA) 框架,通过在像素级、对象级和区域级学习对齐来解决现有方法在像素级预测和训练时的粒度差异问题,并采用硬采样策略促进精细的跨模态对比学习,进一步开发自适应语义单元来改善像素预测单元在下游分割中的缺陷。在 - 探索简化开放词汇语义分割
通过 S-Seg 模型,我们可以实现准确的像素级别标签分配,无需依赖于图像级别的 VL 模型、地面实况掩码和自定义分组编码器,并且可以在多个测试数据集上进行良好的泛化而无需进行微调。
- 视觉语言模型中无需标签的开放词汇语义分割的即插即用稠密提取
通过大规模视觉 - 语言模型,我们提出了一种简单但非常有效的无需训练的技术,Plug-and-Play 开放词汇语义分割(PnP-OVSS),并通过 Salience Dropout 技术实现了与现有技术相比的显着改善。
- SED: 开放词汇语义分割的简单编码器 - 解码器
我们提出了一种名为 SED 的简单的编码器 - 解码器模型用于开放词汇语义分割任务,该模型通过分层背骨和渐进融合解码器实现像素级图像分割,同时引入了类别早期拒绝机制以加快推理速度,实验证明该方法在多个数据集上的性能表现良好
- 扩散模型是一个无需训练的开放词汇语义切分工具
最近的研究探讨了利用预训练的文本 - 图像判别模型(如 CLIP)来解决与开放词汇语义分割相关的挑战。然而,值得注意的是,这些模型基于对比学习的对齐过程可能无意中导致重要的定位信息和物体完整性的丢失,这对于实现准确的语义分割至关重要。最近, - 基于属性分解聚合的开放词汇语义分割
本文提出了一种新颖的分解 - 聚合框架,通过属性描述的多样性丰富语义上下文,使用大型语言模型构建常见类别的属性,并通过手动标注设计人工发明类别的属性,将多样属性聚合为一个集成全局描述的判别分类器,进而通过图像和文本之间的层次聚合和深度融合来 - CVPR从自然语言监督中学习开放词汇语义分割模型
本文提出一种基于 Transformer 的模型用于开放词汇语义分割(Open-Vocabulary Semantic Segmentation, OVS),该模型通过使用网络爬虫图像 - 文本对进行预训练,并提出了两种代理任务和数据集以提