基于草图的视频物体定位

Apr, 2023

Sketch-based Video Object Localization

Sangmin Woo, So-Yeong Jeon, Jinyoung Park, Minji Son, Sumin Lee...

TL;DR本文提出一种名为 Sketch-based Video Object Localization (SVOL) 的任务，通过 Sketch-Video Attention Network (SVANet) 的 Cross-modal Transformer 模型，成功实现了零样本能力的视频物体定位。

Abstract

We introduce sketch-based video object localization (SVOL), a new task aimed at localizing spatio-temporal object boxes in video queried by the input sketch. We first outline the challenges in the SVOL task and b

sketch-based video object localization svanet cross-modal transformer spatio-temporal object boxes zero-shot capability

发现论文，激发创造

自然图像中基于草图引导的物体定位

本文提出了一个用手绘素描进行物体检测的解决方案，通过提出跨模态注意机制，引导区域建议网络生成物体建议，从而在基于快速绘图的查询中定位物体，且方法鲁棒性强，且适用于多个物体实例的定位。

Aug, 2020

基于草图的视频对象分割：基准与分析

该论文介绍了一种新的基于草图的视频目标分割任务，相应的基准数据集和一个强基准模型。实验结果表明，与其他参考方式相比，草图参考更有效且注释效率更高。

Nov, 2023

ViTOL: 弱监督目标定位的视觉 Transformer

我们提出了一种名为 ViTOL 的方法来处理弱监督目标定位问题，在自我关注和渐变关注实现的基础上，引入了基于补丁的关注中断层 (p-ADL) 用于增加定位图的覆盖范围，并且使用基于类别的注意力图生成机制来解决类不可知的问题，并在 ImageNet-1K 和 CUB 数据集上取得了 70.47% 和 73.17% 的最新结果。

Apr, 2022

SSTVOS: 稀疏时空 Transformer 用于视频物体分割

介绍了一种基于 Transformer 的视频对象分割方法，称为 Sparse Spatiotemporal Transformers (SST)，使用稀疏注意力抽取每个对象的每个像素表示，同时具有解决运动分割所需的对应关系计算的归纳偏差。SST 模型在 YouTube-VOS 和 DAVIS 2017 上达到了有竞争力的结果，并具有比现有技术更好的可扩展性和鲁棒性。

Jan, 2021

在野外中利用草图引导进行无限形鱼类的物体定位

本文研究了以手绘草图为查询在自然图像中进行目标定位的问题，并提出了一种基于 sketch-conditioned DETR 架构的方法，不但能够定位对象实例，还能进行对象的像素级别识别，并在实验中证明其优于之前的最先进技术。

Sep, 2021

SLV: 弱监督物体检测的空间似然投票

本文提出了一种基于空间似然投票模块的 WSOD 方法，该模块可以收敛定位过程，同时进一步提高检测性能，得到了 PASCAL VOC 2007 和 2012 数据集上的优越成果。

Jun, 2020

基于跨度问答框架的自然语言视频定位再探讨

本文提出基于 VSLNet 的自然语言视频定位 (NLVL) 方法，利用基于 span 的 question answering (QA) 框架来解决长视频定位中的性能衰退问题，并通过 VSLNet-L 模型进一步提高性能。实验结果表明，该方法优于现有方法，VSLNet-L 可以解决长时间视频性能衰退的问题。

Feb, 2021

素描视频合成

我们提出了一种基于优化的框架，用于绘制视频的素描，通过设置初始参数和利用语义损失和 2D 网络的一致性损失进行优化，生成具有卓越视觉抽象和时间连贯性的素描视频，为基于素描的视频编辑和视频涂鸦提供了潜在的应用。

Nov, 2023

视频行人再识别的时空高效非局部注意力网络

本文介绍了一种通过非局部注意力机制，将空间和时间信息嵌入到特征表示中的视频行人重识别方法（NVAN）。实验表明 NVAN 在 MARS 数据集上的排名准确性比现有方法高出 3.8％，STE-NVAN 相比现有方法具有更先进的计算足迹。

Aug, 2019

VONet：使用并行的 U-Net 注意力与对象逐帧的序列 VAE 进行无监督视频对象学习

VONet 是一种无监督视频物体学习方法，通过采用 U-Net 架构和并行的注意力推理过程生成关注掩模，并利用物体级的顺序 VAE 框架增强每个掩模在连续视频帧上的时间一致性，结合表达丰富的基于变压器的解码器，成为跨五个 MOVI 数据集（包括复杂性不同的视频）的领先无监督物体学习方法。

Jan, 2024