通过语音快速标记目标类别

CVPRNov, 2018

Fast Object Class Labelling via Speech

Michael Gygli, Vittorio Ferrari

TL;DR该研究提出了一种基于语音的标注界面来减少目标类别标注所需的时间，并在 COCO 和 ILSVRC 等数据集上实验证明了该方法相较于现有方法可以在更短时间内获得高质量的标注。

Abstract

object class labelling is the task of annotating images with labels on the presence or absence of objects from a given class vocabulary. Simply asking one yes/no question per class, however, has a cost that is linear in the vocabulary size and is thus inefficient for large vocabularies

object class labelling hierarchical organization speech-based annotation annotation time high-quality annotations

发现论文，激发创造

通过语言和指点高效完成目标注释

利用语音交互技术优化深度学习目标检测中对数据集的标注工作，通过使用语音代替鼠标进行对象类别和边界框的注释，有效提高标注效率，实验表明该方法优于传统标注框架。

May, 2019

开放词汇目标检测的学习目标语言对齐

提出了一种使用自然语言监督学习从配对的图像文本数据中直接学习的新型开放词汇目标检测框架，通过将对象 - 语言对齐形式化为一个图像区域特征集合和一个词向量集合之间的集合匹配问题，可以更简单和有效地在图像 - 文本对上训练开放词汇对象探测器，并在两个基准数据集上进行了广泛的实验，在 LVIS 等新类别上实现了 32.0％的 mAP 和 21.7％的掩膜 mAP 等卓越性能。

Nov, 2022

为视觉和语言模型命名类别的学习

使用可用数据为每个类学习最佳词嵌入作为视觉内容的函数，以此来解决零样本识别对手工类名的高度敏感以及适应新、较小数据集的困难。我们证明，该解决方案可以轻松集成在图像分类和物体检测管道中，在多种情况下产生显著的性能增益，并提供模型偏差和标注误差的见解。

Apr, 2023

使用伪字幕标签进行开放词汇物体检测

该研究提出了一种名为 Pseudo Caption Labeling（PCL）的简单而有效的方法，利用图像字幕模型生成对不同角度目标实例的描述，通过这些大量的数据样本进行知识提炼，以丰富目标的属性和关系等细节，从而提高模型的性能，实验表明该方法可以与任何图像字幕模型一起使用，不需要对模型架构或训练流程进行任何限制。

Mar, 2023

名称背后的含义：超越图像识别分类指数

本论文使用非参数方法建立图像之间的关系，设计出一种基于视觉语言模型的图像分类方法，使模型在图像分类问题上能更好地解决零样本和半监督问题，将语义信息映射到图像分类上，并在 ImageNet 数据集中取得了约 50% 的性能提升。

Apr, 2023

读取、查看和检测：从图像 - 标题对中标注边界框

本文提出一种使用图像标题对来进行弱监督的目标检测和短语定位的方法，并利用视觉语言（VL）模型和自监督视觉变压器（ViTs）进行实验，取得了较好的结果。

Jun, 2023

用文字转录结果定位物体检测

本文提出一种自动从指示视频中提取实体 - 视频帧对的方法，以用于创建任务特定的训练集元算法。

Jun, 2019

通过视觉和语言知识蒸馏进行开放式目标检测

本文提出了一种通过视觉和语言知识蒸馏的训练方法 ViLD，使得我们可以使用预先训练的图像分类模型直接检测和分类未知类别的物体，其在 LVIS 和其他数据集上的表现超过了现有的最先进水平。

Apr, 2021

使用字幕的开放词汇物体检测

本文提出了一种称为开放词汇物体检测的新型物体检测问题，利用有限数量的物体分类边界框注释和图像 - 标题对来训练物体检测器，可以在更低的成本下覆盖更广泛的物体范围，成功地解决了物体检测中监督要求高的问题，并且更具实用性和效率，可以检测和定位那些未在训练过程中提供边界框注释的物体，无监督和零样本方法都无法做到如此高的准确性。

Nov, 2020

使用增量随机平滑快速验证视觉 - 语言模型

在本论文中，我们介绍了一种针对基于开放词汇的模型（如 CLIP）的快速认证方法，通过随机平滑技术实现。该方法利用基础 “训练” 集和对应的认证 CLIP 分类器，通过将具有新提示的分类器视为基础训练集中附近分类器的扰动版本，从而快速认证新分类器。通过使用缓存技巧，我们在新提示的认证过程中实现了近两个数量级的加速。为了进一步加快速度（启发式），OVC 透过使用多元正态分布来近似给定输入的嵌入空间，绕过通过视觉主干进行采样的需要。我们通过对 CIFAR-10 和 ImageNet 测试数据集上的多个视觉语言主干进行实验评估，证明了 OVC 的有效性。

Nov, 2023