无监督开放词汇视频物体定位

ICCVSep, 2023

Unsupervised Open-Vocabulary Object Localization in Videos

Ke Fan, Zechen Bai, Tianjun Xiao, Dominik Zietlow, Max Horn...

TL;DR通过在视频中定位对象的插槽注意力方法以及利用预训练的 CLIP 模型实现无监督视频对象定位，我们展示了近期视频表征学习和预训练视觉语言模型的重要进展，取得了显著的提升，并成为首个在常规视频基准数据集上具有良好结果的无监督方法。

Abstract

In this paper, we show that recent advances in video representation learning and pre-trained vision-language models allow for substantial improvements in →

video representation learning pre-trained vision-language models self-supervised video object localization slot attention approach unsupervised video benchmarks

发现论文，激发创造

视频中音视频对象的自监督学习

本文提出了一种使用自监督学习把视频转化成一组离散的音频 - 视觉物体的模型，并通过注意力定位和分组声源，光流聚合信息等方式提高了模型的准确度。实验表明，本模型学习到的音频 - 视觉对象嵌入可用于解决多说话者音源分离、说话人定位、音频 - 视觉数据校正和活跃说话人检测等四个任务，同时，使用非人类演讲者数据表明了本方法的可泛化性和比其他相关研究更好的效果。

Aug, 2020

视频的自监督目标中心学习

本文提出了第一个完全无监督的方法，用于在真实场景的序列中分割多个对象，通过空间绑定对象并将这些槽联系起来，在高级语义特征空间中重建中间帧，解决了效率和规范化问题，成功地在 YouTube 视频中分割了复杂且多变的类别的多个实例。

Oct, 2023

自监督 ViTs 时代的无监督对象定位调查

最近对开放式视觉系统的热情表明了社区在封闭词汇基准设置之外进行感知任务的高度兴趣。在不事先知道数据集中包含哪些对象的情况下，能够在图像 / 视频中发现对象是一个令人兴奋的前景。最近的研究表明，通过利用自我监督预训练特征，可以进行无类别无监督的对象定位。在自我监督 ViT 的时代，我们在此提出一种调查无监督对象定位方法，其能够在图像中发现对象而无需任何手动注释。我们在以下链接中汇总了所讨论方法的资源库：this https URL

Oct, 2023

零样本自然语言视频定位

本文提出了一种新颖的伪监督方法，用于零样本学习自然语言视频定位模型，并在 Charades-STA 和 ActivityNet-Captions 数据集上实验验证该方法相较于其他方法性能有明显提升。

Aug, 2021

无标签视频中的物体中心表示学习

本研究介绍了一种从未标记的视频中进行无监督学习的新方法，通过引入一种面向物体的时间相干性方法来促进学习具有相似表征的物体，并在多个基准数据集上展示了与竞争无监督方法相比显著的准确度提高。

Dec, 2016

学习仅需最少监督的物体定位

本论文提出了一种新方法，通过图像级标签，结合判别子模块覆盖问题和平滑的潜在 SVM 公式，实现仅需很少的监督，即可学习定位对象。实验表明，该方法在 PASCAL VOC 2007 检测中，相对于现有技术有 50％的平均精确度提升。

Mar, 2014

打通目标与图像级别表示以实现开放词汇检测

本文提出了一种基于 CLIP 模型和图像水平监督的对象中心对齐的方法，运用伪标注实现高质量对象提议并在训练过程中扩展词汇表，通过新的权重传递函数将两种对象对齐策略结合，实现了在 OVD 方案中对象和图像中心表示的最小化差距。在 COCO 数据集上，我们的方法在新颖类别上取得了 36.6 的 AP50 表现，绝对值超过了以前的最佳性能。对于 LVIS，我们在罕见类别上超越了最新的 ViLD 模型达 5.0 的掩膜 AP，总体提高 3.4。

Jul, 2022

开放词汇目标检测的学习目标语言对齐

提出了一种使用自然语言监督学习从配对的图像文本数据中直接学习的新型开放词汇目标检测框架，通过将对象 - 语言对齐形式化为一个图像区域特征集合和一个词向量集合之间的集合匹配问题，可以更简单和有效地在图像 - 文本对上训练开放词汇对象探测器，并在两个基准数据集上进行了广泛的实验，在 LVIS 等新类别上实现了 32.0％的 mAP 和 21.7％的掩膜 mAP 等卓越性能。

Nov, 2022

自监督视频分割的统一掩模嵌入和对应关系学习

通过开发一个统一的框架，其中同时建模跨帧密集对应以进行本地区分特征学习并嵌入对象级上下文进行目标掩码解码，从而使得能够直接从未标记的视频中学习执行基于掩码的连续分割，而不是依赖于基于像素的关联的廉价 “复制” 标签的非直接方法。

Mar, 2023

无监督视觉 grounding 的学习：通过语义自监督

本文提出了一种新型的无监督视觉基础框架，使用概念学习作为代理任务来获得自我监督，以鼓励模型定位和解释语义属性，在多项实验中，该方法在图像本体库、ReferItGame 数据集上分别提升了 5.6% 和 5.8%，在 Flickr30k 数据集上达到了与最先进的表现相媲美的水平。

Mar, 2018