ICLRJan, 2022

基于自然语言的语义分割

TL;DRLSeg 是一种用于语言驱动语义图像分割的新模型,使用文本编码器计算输入标签的嵌入,和基于 transformer 的图像编码器计算输入图像的嵌入,实现像 “草” 或 “建筑” 这样描述性的输入标签的密集像素嵌入,该模型利用语义类相应的文本嵌入与像素嵌入各自计算来训练图像编码器,实现了在测试阶段对未曾见过的类别进行泛化而不需要重新训练或仅需要单个样本的训练,且具有高度竞争的零 - shot 性能。