SegGPT：上下文中的所有内容分割

Apr, 2023

SegGPT: Segmenting Everything In Context

Xinlong Wang, Xiaosong Zhang, Yue Cao, Wen Wang, Chunhua Shen...

TL;DRSegGPT 是一个通用的模型，通过将各种分割任务转换为图像格式，将多个分割任务统一为一个框架，并通过随机颜色映射的上下文涂色问题进行训练。该模型可以在图像或视频分类下进行任意分割任务，并在各种任务中表现出强大的能力，包括少样本语义分割、视频对象分割、语义分割和全景分割。

Abstract

We present SegGPT, a generalist model for segmenting everything in context. We unify various segmentation tasks into a generalist in-context

segmentation context in-context learning image video

发现论文，激发创造

SegGPT 遇见共同显著场景

本文将 SegGPT 应用于共显目标检测，结果发现其在面临组内上下文差异时的性能存在挑战。

May, 2023

FreeSeg: 统一、通用和开放词汇库的图像分割

本文提出了一种通用框架 FreeSeg，通过一次训练优化全一体网络，并采用相同的架构和参数在推理过程中无缝处理各种分割任务。此外，自适应提示学习有助于统一的模型捕捉任务感知和类别敏感概念，在多任务和各种场景中提高模型鲁棒性。大量实验结果表明，在三个分割任务上，FreeSeg 在性能和泛化方面建立了新的最先进结果，比最好的任务特定架构高出很大的幅度：在语义分割、实例分割和 COCO 上的全景分割中，未见类别的 PQ 分别达到 5.5％，17.6％和 20.1％。

Mar, 2023

少样本湿疹分割的视觉情境学习

通过应用上下文学习的方法，我们提出了一种几乎不需要重新训练模型，只需要少量示例图像即可进行湿疹分割的策略，与使用 428 个图像进行训练的 CNN U-Net 相比，使用训练数据集中仅有的 2 个代表图像训练的 SegGPT 表现更好（mIoU: 36.69 vs. 32.60），并发现在 SegGPT 中使用更多的示例图像可能对其性能有害，这强调了在皮肤成像任务中发展更快更好的解决方案时，视觉上下文学习的重要性，我们的结果还为开发能够满足训练数据中通常严重不足的少数群体的包容性解决方案铺平了道路。

Sep, 2023

图像和视频全景分割的通用框架

本研究利用基于模拟比特的扩散模型来解决全景分割任务中高维的一对多映射，通过添加过去的预测作为信息输入，能够对视频中的对象实例进行跟踪并自动学习，在各项实验中与现有的专业方法相比表现出了竞争性。

Oct, 2022

CLUSTSEG: 通用分割的聚类

CLUSTSEG 是一个基于 transformer 的通用框架，通过统一的神经聚类方案解决不同的图像分割任务，并通过两个创新方面实现。像 EM 聚类一样，这些创新使 CLUSTSEG 成为一个透明而强大的框架，在上述分割任务中产生优越的结果。

May, 2023

SEGIC: 在上下文中释放出的新出现对应方法实现的分割

利用上下文分割框架（SEGIC）的元学习和端到端设计，可以实现在只有少数示例图像的情况下对新图像进行分割，并显著降低标记和训练成本，同时在一次性分割基准测试中取得最先进的性能。

Nov, 2023

SegICL: 一个用于增强医学影像分割的通用上下文学习框架

通过 In-Context Learning (ICL) 实现的 SegICL 是一种新颖的方法，它能够在无需训练或微调的情况下，利用文本引导分割和上下文学习来应对在分布之外的数据模态和任务上的新分割任务。实验结果表明，SegICL 能够有效地利用上下文信息来处理新的分割任务，并在在分布和分布之外的任务上展示出可比较的分割性能。

Mar, 2024

利用全局上下文模块进行快速视频对象分割

本研究开发了一种实时、高质量的半监督视频目标分割算法，其精度与耗时最长的在线学习模型相当，而速度则与次优精度的最快模板匹配方法相似。其中，核心组件是使用全局上下文模块，通过整个视频有效地总结和传递信息。相较于之前只使用一个或少量帧来指导当前帧分割的方法，全局上下文模块使用所有过去的帧。此外，与之前的最佳空时记忆网络不同，全局上下文模块使用固定大小的特征表示，因此无论视频长度多长，其内存使用和计算成本都会大大降低。使用这种新模块，我们的模型可以在实时速度下达到标准基准的最高性能。

Jan, 2020

In-Context Translation: 走向图像识别、处理和生成的统一化

我们提出了一种称为 In-Context Translation (ICT) 的通用学习框架，用于统一视觉识别、图像处理和条件图像生成。ICT 通过统一减少了特定任务模型设计所带来的内在归纳偏差，并最大程度地增强了相似任务之间的相互促进。在实验中，ICT 统一了十个视觉任务，并在各自的基准测试中展示了令人印象深刻的性能。与其竞争对手（例如 Painter 和 PromptDiffusion）相比，仅使用 4 台 RTX 3090 GPU 对 ICT 进行训练的效率更高且成本更低。

Apr, 2024

基于自然语言的语义分割

LSeg 是一种用于语言驱动语义图像分割的新模型，使用文本编码器计算输入标签的嵌入，和基于 transformer 的图像编码器计算输入图像的嵌入，实现像 “草” 或 “建筑” 这样描述性的输入标签的密集像素嵌入，该模型利用语义类相应的文本嵌入与像素嵌入各自计算来训练图像编码器，实现了在测试阶段对未曾见过的类别进行泛化而不需要重新训练或仅需要单个样本的训练，且具有高度竞争的零 - shot 性能。

Jan, 2022