元组合指代表述分割
提出了一种多层次指代表达式分割任务 (MRES),构建了一个评估基准 RefCOCOm 和一个规模为 32.2M 的高质量数据集 MRES-32M,设计了 UniRES 模型完成统一的对象级和部分级视觉对齐任务,通过在 RefCOCOm、RefCOCO (+/g) 等数据集上的实验证明了该方法的优越性。
Dec, 2023
在更广泛的实际应用场景下,本文提出了一种名为群组式指称表达分割(Group-wise Referring Expression Segmentation,GRES)的更实际、更通用的多模态任务,并引入了一个完整的群组式指称数据集(Grouped Referring Dataset,GRD),该数据集包含由给定表达式描述的目标物体的完整群组式注释。同时,我们还提出了一种基线方法,名为 Grouped Referring Segmenter(GRSer),它明确地捕获语言视觉和群组内视觉 - 视觉交互,实现了 GRES 和相关任务如 Co-Salient Object Detection 和 RES 的最先进结果。
May, 2023
本文调查了现代方法解决自然语言与计算机视觉领域中的指代表达理解问题,包括用于编码视觉和文本模态的机制,结构化图表示的模块化架构和基于图形的模型,以及针对小型数据集的结果,提出了复合指称表述理解方向的潜在未来研究方向。
Jul, 2020
本研究提出一种新的多任务协作网络 (MCN) 模型通过联合学习来实现指代表达理解 (REC) 和分割 (RES) 两个高度相关的任务,并通过创新设计解决预测冲突的挑战,实验结果表明,在三个基准数据集 RefCOCO、RefCOCO+ 和 RefCOCOg 上,MCN 模型相较于现有方法有了显著的表现提升,REC 和 RES 的准确率分别提高了 7.13% 和 11.50%,证实了我们的方法的有效性。
Mar, 2020
本研究提出一种新的场景下基于规约表达理解的视觉推理数据集,其中使用可灵活组合丰富的视觉属性和多种推理逻辑的新颖表达式引擎生成表达式,并添加额外干扰图像以实现更深层次的视觉推理分析,评估了多种最新的规约表达理解模型,但发现没有一种能够达到良好的表现,提出的模块化较难样本挖掘策略效果最佳,但仍有改进的空间。
Mar, 2020
本文介绍了一个新的基准测试 Generalized Referring Expression Segmentation (GRES),它允许表达式引用任意数量的目标对象,为此我们构建了第一个大规模数据集 gRefCOCO,并提出一种基于区域的 GRES 基线 ReLA,它适应性地将图像划分为具有子实例线索的区域,并明确建模区域 - 区域和区域 - 语言之间的依赖关系,在实验研究中,发现 GRES 的一个重要挑战是复杂的关系建模,而基于区域的方法 ReLA 在新提出的 GRES 和经典的 RES 任务上实现了最新的性能水平。
Jun, 2023
该研究提出了一种基于自然语言表达的交叉模态渐进理解模块和文本引导的特征交换模块,以及基于多模态图推理来高效解决图像分割的问题,并在四个广泛应用的分割数据集中实现了最先进的性能。
Oct, 2020
本文提出了一个跨模态的渐进式理解方案,分别应用于图像和视频的参考分割中,通过使用实体,属性和关系词汇进行空间图形推理和时间图形推理来解决语言表达的主语并输出像素级掩码。
May, 2021
该研究提出了广义引用表达分割(GRES)的问题,并引入了 Multimodal Large Language Models(MLLMs)的方法来解决这个问题,最终通过 Generalized Segmentation Vision Assistant(GSVA)在 gRefCOCO 数据集上取得了显著的改进和新的记录。
Dec, 2023
该研究介绍了 RESMatch,这是一种用于参考表达分割的半监督学习方法,旨在减少对详尽数据标注的依赖,通过修订强扰动、文本增强和强弱监督质量调整等三种创新,RESMatch 在多个数据集上显著优于基线方法,并树立了新的最优效果,为以后的半监督学习参考表达分割研究奠定了基础。
Feb, 2024