Mar, 2024

基于视觉基础模型的无标注语义分割

TL;DR我们构建了一个轻量级模块,基于自监督预训练的视觉编码器与预训练文本编码器对齐图像特征,利用现有的基础模型生成语义分割数据集的免费注释,并使用这个模块为任何预训练视觉编码器带来基于语言的语义,只需少量无注释训练数据,表现出令人印象深刻的泛化能力。