SynthRef: 为目标分割生成合成指称表达式
本文提出一种利用语言描述指定目标对象的视频目标分割方法,通过扩展图像的语言基础模型来保证时空连续的预测,实验结果表明这种基于语言监督的方法在DAVIS'16数据集上表现与使用像素级掩模的传统方法相同,在DAVIS'17数据集上表现优于使用涂鸦的方法。
Mar, 2018
本研究利用合成数据中的几何信息,结合图像翻译网络和任务网络,通过对抗性训练同时进行深度估计和语义分割,有效地缩小域差距,实现了跨域语义分割的重大性能提高。
Dec, 2018
该研究建立了CLEVR-Ref+合成数据集来评估当前流行模型在指代表达理解任务中的表现并提出了IEP-Ref模块化网络的方法来更好地理解中间推理过程,其中模块的行为得到了量化证明并展现了惊人的准确性。
Jan, 2019
本研究提出了一种新的分类方式,评估了现有基准用于语言引导视频对象分割的任务,并分析了一个新型神经网络(RefVOS)在该任务上的表现。研究结果显示,理解视频中的动静作用是该任务的主要挑战。
Oct, 2020
该论文提出了一种基于Transformer的简单统一框架ReferFormer,用于视频对象分割的跨模态任务。该方法将语言视为查询,直接关注视频帧中与查询最相关的区域,并将所有查询都强制找到所需对象,最终将它们转换为捕获关键的对象级信息的动态卷积核,用于从特征映射中生成分割掩码,因此可以极大地简化管道并显著区别于先前的方法。
Jan, 2022
在更广泛的实际应用场景下,本文提出了一种名为群组式指称表达分割(Group-wise Referring Expression Segmentation,GRES)的更实际、更通用的多模态任务,并引入了一个完整的群组式指称数据集(Grouped Referring Dataset,GRD),该数据集包含由给定表达式描述的目标物体的完整群组式注释。同时,我们还提出了一种基线方法,名为 Grouped Referring Segmenter(GRSer),它明确地捕获语言视觉和群组内视觉 - 视觉交互,实现了GRES和相关任务如Co-Salient Object Detection和RES的最先进结果。
May, 2023
此篇论文介绍了RefSAM模型,该模型利用来自不同视觉语言模态和时间戳的多视角信息,首次探索SAM在RVOS领域的潜力。通过在参考表达中应用轻量级跨模态MLP来增强跨模态学习,并采用参数高效的调整策略,成功对齐并融合了语言和视觉特征。最终在实验中,该模型优于现有方法。
Jul, 2023
通过引用视频目标分割(RVOS)的方法,本研究提出了一种名为OnlineRefer的简单而有效的在线模型,它利用明确的查询传播来改进当前帧的引用预测的准确性和便捷性,并将其推广为半在线框架以与基于视频的主干网络兼容。在四个基准测试中进行了评估,即Refer-Youtube-VOS、Refer-DAVIS17、A2D-Sentences和JHMDB-Sentences,结果表明我们的OnlineRefer在Refer-Youtube-VOS和Refer-DAVIS17上取得了63.5 J&F和64.8 J&F的成绩,优于所有其他离线方法。
Jul, 2023
本研究提出了一种用于零样本参照图像分割的新型方法Ref-Diff,它利用生成模型中的细粒度多模态信息,证明仅凭生成模型的性能可以与现有的SOTA弱监督模型相媲美,并且当将生成模型与判别模型结合时,我们的Ref-Diff显著优于其他方法,证明生成模型对于该任务也是有益的,可为更好的参照分割提供补充。
Aug, 2023