将自适应绑定原型用于广义指代表达式分割
本文介绍了一个新的基准测试 Generalized Referring Expression Segmentation (GRES),它允许表达式引用任意数量的目标对象,为此我们构建了第一个大规模数据集 gRefCOCO,并提出一种基于区域的 GRES 基线 ReLA,它适应性地将图像划分为具有子实例线索的区域,并明确建模区域 - 区域和区域 - 语言之间的依赖关系,在实验研究中,发现 GRES 的一个重要挑战是复杂的关系建模,而基于区域的方法 ReLA 在新提出的 GRES 和经典的 RES 任务上实现了最新的性能水平。
Jun, 2023
在更广泛的实际应用场景下,本文提出了一种名为群组式指称表达分割(Group-wise Referring Expression Segmentation,GRES)的更实际、更通用的多模态任务,并引入了一个完整的群组式指称数据集(Grouped Referring Dataset,GRD),该数据集包含由给定表达式描述的目标物体的完整群组式注释。同时,我们还提出了一种基线方法,名为 Grouped Referring Segmenter(GRSer),它明确地捕获语言视觉和群组内视觉 - 视觉交互,实现了 GRES 和相关任务如 Co-Salient Object Detection 和 RES 的最先进结果。
May, 2023
提出了一种多层次指代表达式分割任务 (MRES),构建了一个评估基准 RefCOCOm 和一个规模为 32.2M 的高质量数据集 MRES-32M,设计了 UniRES 模型完成统一的对象级和部分级视觉对齐任务,通过在 RefCOCOm、RefCOCO (+/g) 等数据集上的实验证明了该方法的优越性。
Dec, 2023
该研究提出了广义引用表达分割(GRES)的问题,并引入了 Multimodal Large Language Models(MLLMs)的方法来解决这个问题,最终通过 Generalized Segmentation Vision Assistant(GSVA)在 gRefCOCO 数据集上取得了显著的改进和新的记录。
Dec, 2023
通过引入 Hierarchical Semantic Decoding with Counting Assistance (HDC) 框架,以解决 Generalized Referring Expression Segmentation (GRES) 中的空间关系复杂性和多指代情景中目标理解的模糊性问题,HDC 能够在多种场景下进行全面的对象感知。
May, 2024
本文通过元学习的角度,提出了一种 Meta Compositional Referring Expression Segmentation (MCRES) 框架,以提高模型的组合泛化性能。我们的框架可以有效地驱使模型更好地捕捉单个概念的语义和视觉表示,从而在处理新的组合时获得稳健的泛化性能。通过三个基准数据集的广泛实验,证明了我们框架的有效性。
Apr, 2023
该研究介绍了 RESMatch,这是一种用于参考表达分割的半监督学习方法,旨在减少对详尽数据标注的依赖,通过修订强扰动、文本增强和强弱监督质量调整等三种创新,RESMatch 在多个数据集上显著优于基线方法,并树立了新的最优效果,为以后的半监督学习参考表达分割研究奠定了基础。
Feb, 2024
本研究提出一种新的多任务协作网络 (MCN) 模型通过联合学习来实现指代表达理解 (REC) 和分割 (RES) 两个高度相关的任务,并通过创新设计解决预测冲突的挑战,实验结果表明,在三个基准数据集 RefCOCO、RefCOCO+ 和 RefCOCOg 上,MCN 模型相较于现有方法有了显著的表现提升,REC 和 RES 的准确率分别提高了 7.13% 和 11.50%,证实了我们的方法的有效性。
Mar, 2020
通过引入被称为 gRefCOCO 的新基准,这项研究扩展了经典的推理表达理解(REC),允许表达描述任意数量的目标对象,并建立了第一个大规模的 GREC 数据集。
Aug, 2023
基于语义表达分割(RES)的任务,提出一种新的学习任务,称为全监督引用表达分割(Omni-RES),旨在充分利用未标记、完全标记和弱标记数据进行高效的 RES 训练,并基于最近流行的师生学习方法提出一种有效的基准方法来解决监督信号不直接依赖于弱标签的问题。实验证明,Omni-RES 方法明显优于全监督和半监督训练方案,并使得大规模视觉语言如 Visual Genome 能够在低成本下进行 RES 训练,实现了新的最佳效果。
Nov, 2023