使用实例感知 Transformer 分割对象
该研究提出了一种新型、灵活且有效的基于 transformer 的模型 SOTR,该模型在 CNN 骨干网络的基础上增加了两个并行子任务,通过 transformer 预测每个实例的类别并使用多级上采样模块动态生成分割掩模,sotr 在识别实例级别时表现优异,代码开放源代码。
Aug, 2021
本文提出了一种名为 ISTR 的实例分割变压器,利用低维掩模嵌入进行实例分割,采用递归细化策略实现检测和分割并行,实现了端到端框架。在 MS COCO 数据集上,基于 ResNet50-FPN 和 ResNet101-FPN 的 ISTR 分别获得了 46.8 / 38.6 和 48.1 / 39.9 的盒子 / 掩码 AP,并取得了最先进的性能。
May, 2021
本研究介绍了 MSDeAOT,一种在多个特征尺度上运用 transformers 的 AOT 变体,利用分层的 GPM,以 stride 为 16 的特征尺度高效地从前一帧传播物体掩码至当前帧,同时在具有 stride 为 8 的更精细的特征尺度上应用 GPM,从而提高了检测和跟踪小物体的准确性。通过实现测试时间的数据增强和模型集成技术,我们在 EPIC-KITCHEN VISOR 半监督视频对象分割挑战中取得了排名第一的位置。
Jul, 2023
该论文介绍了一种基于距离变换的对象段表示方法和基于残差解卷积结构的对象掩码网络,实现了跨越边界框的对象分割;并将其整合到一个多任务网络级联框架中,学习了最终二进制对象掩码。实验表明,这种方法在目标生成和实例分割方面优于现有的技术。
Dec, 2016
通过将卫星图像时间序列处理作为直接的集合预测问题,将其表示学习过程分解为三个明确步骤:集合 - 更新 - 分散,使我们的模型在 PASTIS 数据集上取得了新的最先进结果,比如 U-TAE 等自定义神经结构。此外,通过将时间和空间组件在可视化方面进行了明确的分离,可以利用最近的计算机视觉进步,例如 Mask2Former,这是一种通用分割架构,从而实现比迄今为止的最佳分数高 8.8 个点的 PQ。
May, 2023
本文提出了一种基于双模型网络和交互式变换器的半监督视频对象分割方法,能够有效地从历史帧向当前帧传播上下文信息,同时使用特征交互模块,提高了目标表示的性能,并通过三种基准实验验证了其优于现有方法的性能.
Dec, 2021
本文研究以动词为指示符的任务定向检测问题,针对细化定位提出了基于 transformer 架构的 TOIST 方法,并提出了名词 - 代词提炼框架,使网络在输出时与名词无关。在大型数据集 COCO-Tasks 上的评估表明,该方法优于目前最佳结果。
Oct, 2022
本研究提出了基于 AOT 的嵌入式学习方法,通过将多个对象相互关联在同一高维度嵌入空间中,实现了同时处理多个对象的匹配和分割解码,具有更高的效率,并且在多个基准测试中均优于已有的 State-of-the-art 算法,是第三次大规模 VOS 挑战的第一名。
Jun, 2021
本研究采用基于图形的算法,通过利用自我监督变压器获得的特征来检测和分割图像和视频中的显着对象,并最终通过经典的归一化割算法解决检测和分割问题,并在多个常见的图像和视频检测和分割任务中实现了最新的结果。
Sep, 2022
本论文提出了一种基于 Transformer 的开放世界实例分割模型 SWORD,利用停止梯度操作和 IoU 头进行对象分割,通过对比学习扩大对象和背景之间的表示,并在各种开放世界场景中实现了最先进的性能。
Aug, 2023