CVPRApr, 2024

OVFoodSeg: 通过图像信息的文本表示提升开放词汇食物图像分割

TL;DR在食品计算领域,从图像中分割出食材面临着巨大挑战,因为相同食材的内部类别差异较大,新食材的出现以及大型食品分割数据集所伴随的高昂标注成本。OVFoodSeg 是一种采用开放词汇设置并将文本嵌入与视觉上下文相结合的框架,通过集成视觉 - 语言模型(VLMs),我们的方法通过两个创新模块(FoodLearner 和图像感知文本编码器)使文本嵌入丰富化与图像特定信息。通过解决先前模型的不足,OVFoodSeg 在 FoodSeg103 数据集上在平均交并比(mIoU)上取得了显著提高,提升了 4.9%,为食品图像分割设定了一个新的里程碑。