Mar, 2024

OTSeg: 多提示Sinkhorn注意力用于零样本语义分割

TL;DROTSeg是一种新颖的多模态注意力机制,旨在通过增强多个文本提示与像素嵌入的匹配能力来解决将预训练的CLIP知识与像素嵌入紧密对齐的限制问题,通过大量实验证明OTSeg在三个基准数据集上实现了最先进的零样本语义分割性能提升。