OVFoodSeg: 通过图像信息的文本表示提升开放词汇食物图像分割

CVPRApr, 2024

OVFoodSeg: 通过图像信息的文本表示提升开放词汇食物图像分割

OVFoodSeg: Elevating Open-Vocabulary Food Image Segmentation via Image-Informed Textual Representation

Xiongwei Wu, Sicheng Yu, Ee-Peng Lim, Chong-Wah Ngo

TL;DR在食品计算领域，从图像中分割出食材面临着巨大挑战，因为相同食材的内部类别差异较大，新食材的出现以及大型食品分割数据集所伴随的高昂标注成本。OVFoodSeg 是一种采用开放词汇设置并将文本嵌入与视觉上下文相结合的框架，通过集成视觉 - 语言模型（VLMs），我们的方法通过两个创新模块（FoodLearner 和图像感知文本编码器）使文本嵌入丰富化与图像特定信息。通过解决先前模型的不足，OVFoodSeg 在 FoodSeg103 数据集上在平均交并比（mIoU）上取得了显著提高，提升了 4.9％，为食品图像分割设定了一个新的里程碑。

Abstract

In the realm of food computing, segmenting ingredients from images poses substantial challenges due to the large intra-class variance among the same ingredients, the emergence of new ingredients, and the high annotation costs associated with large food segmentation datasets. Existing a

food computing ingredient segmentation open-vocabulary setting vision-language models image-specific information

发现论文，激发创造

从自然语言监督中学习开放词汇语义分割模型

本文提出一种基于 Transformer 的模型用于开放词汇语义分割（Open-Vocabulary Semantic Segmentation, OVS），该模型通过使用网络爬虫图像 - 文本对进行预训练，并提出了两种代理任务和数据集以提高训练效率和分割结果。在三个基准数据集上实现了优异的零 - shot 迁移效果。

Jan, 2023

利用图像级标签扩展开放词汇图像分割规模

本文提出了 OpenSeg 模型，通过学习像素的可视化分组和视觉 - 语义对齐，利用可扩展的图像级监督生成分割掩码，从而实现对图像的开放词汇的分割与组织，相对 LSeg 模型在 PASCAL 数据集上精度提高了 19.9 个百分点。

Dec, 2021

分层开放词汇通用图像分割

本文提出了一种层次化结构的图像分割方法，包括分层表示和分裂的文本图像融合机制，并成功应用于多种分割任务中，包括语义、实例和部分级别的图像理解。

Jul, 2023

自导引开放词汇语义分割

通过提出自主引导的语义分割（Self-Seg）框架和基于 LLM 的开放式词汇评估器（LOVE），在不需要提供类别名称的情况下，实现了开放式词汇分割的最新成果，并与提供类别名称的方法相竞争，取得了 Pascal VOC、ADE20K 和 CityScapes 的最具竞争力的结果。

Dec, 2023

USE: 通用分段嵌入用于开放词汇库图像分割

我们介绍了通用段落嵌入（USE）框架，该框架通过数据管道和通用段落嵌入模型，能够准确地将图像划分为各种文本定义的类别，并在开放词汇图像分割和其他下游任务中取得更好的性能。

Jun, 2024

通过对比和聚类视觉语言嵌入进行开放世界语义分割

本文提出了一种基于图像文本交互的语义分割模型 ViL-Seg，通过无需密集标注的方式，利用网络上自然存在的图像和文本数据，学习到能够直接分割任意开放世界类别对象的能力，实验结果在三个基准数据集上优于需要数据标注的零样本分割方法。

Jul, 2022

探索简化开放词汇语义分割

通过 S-Seg 模型，我们可以实现准确的像素级别标签分配，无需依赖于图像级别的 VL 模型、地面实况掩码和自定义分组编码器，并且可以在多个测试数据集上进行良好的泛化而无需进行微调。

Jan, 2024

FreeSeg: 统一、通用和开放词汇库的图像分割

本文提出了一种通用框架 FreeSeg，通过一次训练优化全一体网络，并采用相同的架构和参数在推理过程中无缝处理各种分割任务。此外，自适应提示学习有助于统一的模型捕捉任务感知和类别敏感概念，在多任务和各种场景中提高模型鲁棒性。大量实验结果表明，在三个分割任务上，FreeSeg 在性能和泛化方面建立了新的最先进结果，比最好的任务特定架构高出很大的幅度：在语义分割、实例分割和 COCO 上的全景分割中，未见类别的 PQ 分别达到 5.5％，17.6％和 20.1％。

Mar, 2023

基于基础模型的图像匹配：开放词汇语义分割的新视角

基于视觉基于模型，提出了一种关系感知的单模态匹配 (OVS) 框架，用于解决像素分组和区域识别方法中图像特征与类别标签之间的误匹配问题，并在三个基准测试中展现出大幅度优势。

Mar, 2024

OpenVIS: 开放词汇视频实例分割

本研究提出和研究了一项新的计算机视觉任务，名为 OpenVIS，该任务旨在根据对应的文本描述同时分割，检测和跟踪视频中的任意对象。通过开放词汇的设计，OpenVIS 可以识别所需类别的对象，而不管这些类别是否包括在训练数据集中。为了实现这一目标，本文提出了一个由两个阶段组成的流程，首先利用基于查询的蒙版提议网络生成所有潜在对象的蒙版，并通过预先训练的 VLM 预测其对应的类别，其次通过提议后处理方法更好地适应预训练的 VLMs，以避免扭曲和不自然的提议输入。

May, 2023