用语言指导进行任意粒度的通用分割
本文提出了一种通用的半监督语义分割框架,旨在在各种应用领域实现更低的注释和部署成本,并通过像素感知熵正则化的特征对齐目标来最小化有监督以及无监督损失,以实现在多个领域中都能使用单一模型,利用少量标记实现性能提升,同时可以处理不同领域的标签空间不同的问题。
Nov, 2018
本研究提出了一种基于可学习的通用提示的通用分割模型(UniSeg),用于多任务医学图像分割,融合多个模态和域,通过动态卷积层提取感兴趣的目标,从而实现了模型在早期意识到正在进行的任务,并提高了整个解码器的任务特定训练。在 11 个上游任务和 2 个下游任务中, UniSeg 相对于其他预训练模型和单任务模型表现更优秀。
Apr, 2023
本文提出了一种通用框架 FreeSeg,通过一次训练优化全一体网络,并采用相同的架构和参数在推理过程中无缝处理各种分割任务。此外,自适应提示学习有助于统一的模型捕捉任务感知和类别敏感概念,在多任务和各种场景中提高模型鲁棒性。大量实验结果表明,在三个分割任务上,FreeSeg 在性能和泛化方面建立了新的最先进结果,比最好的任务特定架构高出很大的幅度:在语义分割、实例分割和 COCO 上的全景分割中,未见类别的 PQ 分别达到 5.5%,17.6%和 20.1%。
Mar, 2023
UniverSeg 利用新的交叉块机制解决了无需额外训练的医学图像分割任务,其中使用的 MegaMedical 数据集包含 53 个开放数据集,22,000 个扫描,UniverSeg 在各种解剖学和成像模式下的训练使其能够在新任务中表现出色。
Apr, 2023
LSeg 是一种用于语言驱动语义图像分割的新模型,使用文本编码器计算输入标签的嵌入,和基于 transformer 的图像编码器计算输入图像的嵌入,实现像 “草” 或 “建筑” 这样描述性的输入标签的密集像素嵌入,该模型利用语义类相应的文本嵌入与像素嵌入各自计算来训练图像编码器,实现了在测试阶段对未曾见过的类别进行泛化而不需要重新训练或仅需要单个样本的训练,且具有高度竞争的零 - shot 性能。
Jan, 2022
本篇论文介绍了一种序列标注框架,并将其应用于具有不同书写系统和类型特征的多种语言的单词分割,结果表明,单词分割的准确性与单词边界标记正相关并与非分割术语数量负相关。在此基础上,设计了一套小的语言特定设置,并基于 Universal Dependencies 数据集进行广泛评估,结果表明该模型在所有 UD 语言上获得了最先进的精度,在中文、日语、阿拉伯语和希伯来语等难以划分的语言上表现显著优于以前的工作。
Jul, 2018
本文介绍了一种基于语言指令的语义和几何感知的视觉语言学习框架,通过直接从 3D 点云生成语义相关的掩码,从而在 ScanNetv2、ScanNet200 和 Replica 基准测试中明显优于现有方法,且结果接近全监督对照组,尽管训练数据中缺乏类别标注。
Apr, 2024
我们介绍了通用段落嵌入(USE)框架,该框架通过数据管道和通用段落嵌入模型,能够准确地将图像划分为各种文本定义的类别,并在开放词汇图像分割和其他下游任务中取得更好的性能。
Jun, 2024
通过引入 Semantic-SAM,我们提出了一种通用的图像分割模型,能够以任意所需的细粒度对任何物体进行分割和识别,具备语义感知和细粒度丰富性,实验证明我们的模型成功实现了语义感知和细粒度丰富性。
Jul, 2023
通过利用语言作为随机化的源,在语义分割网络中引入简单的框架来实现泛化。通过最小化微调、语言驱动的局部样式增强和在训练过程中混合源和增强样式的随机化三个关键要素,我们进行了大量实验,在各种泛化基准测试中取得了最先进的结果。
Nov, 2023