Dec, 2023

VLTSeg: 用于领域泛化语义分割的基于 CLIP 的视觉 - 语言表示简单转移

TL;DR本研究提出了一种基于视觉 - 语言模型的视觉语义分割方法,通过在源领域进行训练并在未见目标领域进行评估,提高了领域通用性。实验证明,该方法在域通用分割中的性能优于传统的视觉训练方法,取得了 7.6% mIoU 的提升。同时,在主流数据集上取得了 76.48% mIoU 的性能,超过了此前最优方法 6.9% mIoU 的水平。还表明该方法在领域内具有强大的泛化能力,并在当前排行榜上与最优方法并列第一。