SegGPT:上下文中的所有内容分割
本文提出了一种通用框架 FreeSeg,通过一次训练优化全一体网络,并采用相同的架构和参数在推理过程中无缝处理各种分割任务。此外,自适应提示学习有助于统一的模型捕捉任务感知和类别敏感概念,在多任务和各种场景中提高模型鲁棒性。大量实验结果表明,在三个分割任务上,FreeSeg 在性能和泛化方面建立了新的最先进结果,比最好的任务特定架构高出很大的幅度:在语义分割、实例分割和 COCO 上的全景分割中,未见类别的 PQ 分别达到 5.5%,17.6%和 20.1%。
Mar, 2023
通过应用上下文学习的方法,我们提出了一种几乎不需要重新训练模型,只需要少量示例图像即可进行湿疹分割的策略,与使用 428 个图像进行训练的 CNN U-Net 相比,使用训练数据集中仅有的 2 个代表图像训练的 SegGPT 表现更好(mIoU: 36.69 vs. 32.60),并发现在 SegGPT 中使用更多的示例图像可能对其性能有害,这强调了在皮肤成像任务中发展更快更好的解决方案时,视觉上下文学习的重要性,我们的结果还为开发能够满足训练数据中通常严重不足的少数群体的包容性解决方案铺平了道路。
Sep, 2023
本研究利用基于模拟比特的扩散模型来解决全景分割任务中高维的一对多映射,通过添加过去的预测作为信息输入,能够对视频中的对象实例进行跟踪并自动学习,在各项实验中与现有的专业方法相比表现出了竞争性。
Oct, 2022
CLUSTSEG 是一个基于 transformer 的通用框架,通过统一的神经聚类方案解决不同的图像分割任务,并通过两个创新方面实现。像 EM 聚类一样,这些创新使 CLUSTSEG 成为一个透明而强大的框架,在上述分割任务中产生优越的结果。
May, 2023
利用上下文分割框架(SEGIC)的元学习和端到端设计,可以实现在只有少数示例图像的情况下对新图像进行分割,并显著降低标记和训练成本,同时在一次性分割基准测试中取得最先进的性能。
Nov, 2023
通过 In-Context Learning (ICL) 实现的 SegICL 是一种新颖的方法,它能够在无需训练或微调的情况下,利用文本引导分割和上下文学习来应对在分布之外的数据模态和任务上的新分割任务。实验结果表明,SegICL 能够有效地利用上下文信息来处理新的分割任务,并在在分布和分布之外的任务上展示出可比较的分割性能。
Mar, 2024
本研究开发了一种实时、高质量的半监督视频目标分割算法,其精度与耗时最长的在线学习模型相当,而速度则与次优精度的最快模板匹配方法相似。其中,核心组件是使用全局上下文模块,通过整个视频有效地总结和传递信息。相较于之前只使用一个或少量帧来指导当前帧分割的方法,全局上下文模块使用所有过去的帧。此外,与之前的最佳空时记忆网络不同,全局上下文模块使用固定大小的特征表示,因此无论视频长度多长,其内存使用和计算成本都会大大降低。使用这种新模块,我们的模型可以在实时速度下达到标准基准的最高性能。
Jan, 2020
我们提出了一种称为 In-Context Translation (ICT) 的通用学习框架,用于统一视觉识别、图像处理和条件图像生成。ICT 通过统一减少了特定任务模型设计所带来的内在归纳偏差,并最大程度地增强了相似任务之间的相互促进。在实验中,ICT 统一了十个视觉任务,并在各自的基准测试中展示了令人印象深刻的性能。与其竞争对手(例如 Painter 和 PromptDiffusion)相比,仅使用 4 台 RTX 3090 GPU 对 ICT 进行训练的效率更高且成本更低。
Apr, 2024
LSeg 是一种用于语言驱动语义图像分割的新模型,使用文本编码器计算输入标签的嵌入,和基于 transformer 的图像编码器计算输入图像的嵌入,实现像 “草” 或 “建筑” 这样描述性的输入标签的密集像素嵌入,该模型利用语义类相应的文本嵌入与像素嵌入各自计算来训练图像编码器,实现了在测试阶段对未曾见过的类别进行泛化而不需要重新训练或仅需要单个样本的训练,且具有高度竞争的零 - shot 性能。
Jan, 2022