Jul, 2024

文本查询驱动的掩膜变换器用于领域广义分割

TL;DR利用视觉-语言模型的文本嵌入方法进行域广义语义分割(Domain Generalized Semantic Segmentation),通过文本对象查询用于像素分组,并引入textual query-driven mask transformer (tqdm)框架来提高模型对感兴趣类别的语义理解能力和对极端领域的泛化能力。