CVPRMar, 2023

采用文本到图像扩散模型的开放词汇全景分割

TL;DRODISE 通过联合预训练的文本 - 图像推理和判别式模型实现开放式语料库全景分割,其能力高于现有技术水平,并能在 AED20K 数据集上达到 30.0 mIoU 和 23.4 PQ 的表现。