SynthRef: 为目标分割生成合成指称表达式

Jun, 2021

SynthRef: 为目标分割生成合成指称表达式

SynthRef: Generation of Synthetic Referring Expressions for Object Segmentation

Ioannis Kazakos, Carles Ventura, Miriam Bellver, Carina Silberer, Xavier Giro-i-Nieto

TL;DR本文提出了SynthRef方法和第一批包含视频对象分割合成参考表达的大规模数据集，通过使用这些合成参考表达，可以提高模型在不同数据集上的泛化能力，为对象检测或分割数据集的应用提供了可能性。

Abstract

Recent advances in deep learning have brought significant progress in visual grounding tasks such as language-guided video object segmentation

发现论文，激发创造

语言指代表达的视频目标分割

本文提出一种利用语言描述指定目标对象的视频目标分割方法，通过扩展图像的语言基础模型来保证时空连续的预测，实验结果表明这种基于语言监督的方法在DAVIS'16数据集上表现与使用像素级掩模的传统方法相同，在DAVIS'17数据集上表现优于使用涂鸦的方法。

Mar, 2018

城市场景语义分割中合成数据的有效使用

本文提出了一种无需真实图像数据的方法，通过修改前景和背景类的训练方法来适应合成图像，有效地训练出了适用于城市街景和驾驶场景的图像语义分割模型。

Jul, 2018

从合成数据中学习语义分割: 一种几何引导的输入输出适应方法

本研究利用合成数据中的几何信息，结合图像翻译网络和任务网络，通过对抗性训练同时进行深度估计和语义分割，有效地缩小域差距，实现了跨域语义分割的重大性能提高。

Dec, 2018

CLEVR-Ref+: 通过指称表达式诊断视觉推理

该研究建立了CLEVR-Ref+合成数据集来评估当前流行模型在指代表达理解任务中的表现并提出了IEP-Ref模块化网络的方法来更好地理解中间推理过程，其中模块的行为得到了量化证明并展现了惊人的准确性。

Jan, 2019

RefVOS：关注视频对象分割中的指代表达

本研究提出了一种新的分类方式，评估了现有基准用于语言引导视频对象分割的任务，并分析了一个新型神经网络（RefVOS）在该任务上的表现。研究结果显示，理解视频中的动静作用是该任务的主要挑战。

Oct, 2020

使用语言查询进行视频对象分割

该论文提出了一种基于Transformer的简单统一框架ReferFormer，用于视频对象分割的跨模态任务。该方法将语言视为查询，直接关注视频帧中与查询最相关的区域，并将所有查询都强制找到所需对象，最终将它们转换为捕获关键的对象级信息的动态卷积核，用于从特征映射中生成分割掩码，因此可以极大地简化管道并显著区别于先前的方法。

Jan, 2022

提升细化引用表达分割: 超越单图像

在更广泛的实际应用场景下，本文提出了一种名为群组式指称表达分割（Group-wise Referring Expression Segmentation，GRES）的更实际、更通用的多模态任务，并引入了一个完整的群组式指称数据集（Grouped Referring Dataset，GRD），该数据集包含由给定表达式描述的目标物体的完整群组式注释。同时，我们还提出了一种基线方法，名为 Grouped Referring Segmenter（GRSer），它明确地捕获语言视觉和群组内视觉 - 视觉交互，实现了GRES和相关任务如Co-Salient Object Detection和RES的最先进结果。

May, 2023

RefSAM: 为引用视频目标分割而高效地调整任意分割模型

此篇论文介绍了RefSAM模型，该模型利用来自不同视觉语言模态和时间戳的多视角信息，首次探索SAM在RVOS领域的潜力。通过在参考表达中应用轻量级跨模态MLP来增强跨模态学习，并采用参数高效的调整策略，成功对齐并融合了语言和视觉特征。最终在实验中，该模型优于现有方法。

Jul, 2023

在线Refer：基于简单的在线基准的视频对象引用分割

通过引用视频目标分割（RVOS）的方法，本研究提出了一种名为OnlineRefer的简单而有效的在线模型，它利用明确的查询传播来改进当前帧的引用预测的准确性和便捷性，并将其推广为半在线框架以与基于视频的主干网络兼容。在四个基准测试中进行了评估，即Refer-Youtube-VOS、Refer-DAVIS17、A2D-Sentences和JHMDB-Sentences，结果表明我们的OnlineRefer在Refer-Youtube-VOS和Refer-DAVIS17上取得了63.5 J&F和64.8 J&F的成绩，优于所有其他离线方法。

Jul, 2023

Ref-Diff: 通过生成模型实现的零样本参考图像分割

本研究提出了一种用于零样本参照图像分割的新型方法Ref-Diff，它利用生成模型中的细粒度多模态信息，证明仅凭生成模型的性能可以与现有的SOTA弱监督模型相媲美，并且当将生成模型与判别模型结合时，我们的Ref-Diff显著优于其他方法，证明生成模型对于该任务也是有益的，可为更好的参照分割提供补充。

Aug, 2023