走向开放词汇学习:综述
该研究提出了一种基于语义流形的加权最大间隔框架解决零样本学习中面临的挑战,包括有限标记数据、大量标签分类和开放集分类。在 Animal with Attributes 和 ImageNet 数据集上,模型表现得到了显著提高,类词汇量最高可达 310K。
Jan, 2023
计算机视觉中的目标检测和分割作为最基本的任务,在深度学习时代取得了巨大的进展。然而,由于昂贵的手动标注,现有数据集中的标注类别往往规模较小且预定义,即最先进的检测器和分割器无法推广到开放词汇之外。因此,近年来越来越多的关注集中在开放词汇检测(OVD)和分割(OVS)上。在本调研中,我们提供了对过去和最新 OVD 和 OVS 发展的全面审查。为此,我们根据任务类型和方法学开发了一个分类法。我们发现,对于不同的方法学,包括:视觉 - 语义空间映射、新颖的视觉特征合成、区域感知训练、伪标签、基于知识蒸馏和基于迁移学习的方法,弱监督信号的许可和使用可以很好地区分。所提出的分类法在不同任务之间是通用的,包括目标检测、语义 / 实例 / 全景分割、三维场景和视频理解。在每个类别中,详细讨论了其主要原则、关键挑战、发展路线、优点和缺点。此外,我们还对每个方法的关键组成部分进行了基准测试。最后,我们提供了一些有前途的方向,以激发未来的研究。
Jul, 2023
本文提出了一种基于大规模文本到图像扩散模型的零样本开放词库分割方法,通过考虑采样的图像的背景来更好地定位对象并直接分割背景,并证明该方法可以在多个基准测试中表现出色,在 Pascal VOC 基准测试上领先了超过 10%。
Jun, 2023
本文提出了一种称为开放词汇物体检测的新型物体检测问题,利用有限数量的物体分类边界框注释和图像 - 标题对来训练物体检测器,可以在更低的成本下覆盖更广泛的物体范围,成功地解决了物体检测中监督要求高的问题,并且更具实用性和效率,可以检测和定位那些未在训练过程中提供边界框注释的物体,无监督和零样本方法都无法做到如此高的准确性。
Nov, 2020
本文介绍了一种基于最大边距框架的语义流形识别方法,并提出了半监督词汇知识学习的概念,从而实现监督学习、零样本学习和开放式识别的统一框架。该方法在 AwA 和 ImageNet 数据集上的结果显示出了改进。
Apr, 2016
该论文介绍了一种使用预训练的图像 - 语言模型进行零样本学习的语义分割方法,将预训练模型中的视觉概念知识转化为分割区域的语义信息表示(即 segment tokens)并应用于视觉语义分割任务中。实验结果表明,该方法在多个公共基准数据集上可以达到与有监督训练方法相竞争的效果。
Jun, 2023
通过使用冻结的仅包含视觉信息的模型和融合离散文本和语言知识的方式,我们提出了 SimZSS,一种用于开放性词汇的零样本分割的简单框架。在仅使用图像 - 标题对数据集进行训练的情况下,我们的方法利用了视觉表示的质量,并在不到 15 分钟的时间内在 8 个基准数据集中的 7 个上实现了最先进的结果。
Jun, 2024
视觉语言模型 (Vision-Language Models, VLMs) 不是开放集模型,因为它们通过有限的查询集引入了闭合集的假设,使其容易受到开放集条件的影响。我们系统地评估了 VLMs 在开放集识别方面的表现,发现它们经常错误地分类不在查询集中的对象,导致在高召回率和高精度调优时出现令人担忧的低精度。我们表明,简单增加查询集的大小以包含更多类别并不能解决这个问题,反而会导致任务性能和开放集性能下降。我们为 VLMs 时代建立了开放集问题的修订定义,定义了一个新的基准和评估协议,以促进在这一重要领域的标准化评估和研究,并在一系列 VLM 分类器和物体检测器上评估了有前景的基线方法,基于预测不确定性和专用负向嵌入。
Mar, 2024
提出了一种使用自然语言监督学习从配对的图像文本数据中直接学习的新型开放词汇目标检测框架,通过将对象 - 语言对齐形式化为一个图像区域特征集合和一个词向量集合之间的集合匹配问题,可以更简单和有效地在图像 - 文本对上训练开放词汇对象探测器,并在两个基准数据集上进行了广泛的实验,在 LVIS 等新类别上实现了 32.0%的 mAP 和 21.7%的掩膜 mAP 等卓越性能。
Nov, 2022
通过对具有语义丰富标题的多视图图像进行记录,来设计分层三维标题对,使用对比学习,学习与图像相连的语言感知嵌入,并在开放词汇语义和实例分割方面表现出卓越的性能,具有鲁棒的可迁移性。
Nov, 2022