VLPD: 通过视觉语义自监督实现上下文感知的行人检测

CVPRApr, 2023

VLPD: 通过视觉语义自监督实现上下文感知的行人检测

VLPD: Context-Aware Pedestrian Detection via Vision-Language Semantic Self-Supervision

Mengyin Liu, Jie Jiang, Chao Zhu, Xu-Cheng Yin

TL;DR本论文提出了一种基于视觉语言自监督学习的上下文感知行人检测方法 (VLPD)，采用自生成的显式语义类标签来学习语义分割和行人检测任务，并提出了自我监督原形语义对比学习方法来更好地判别行人和其他分类，并在流行的基准数据集上进行了广泛的实验，证明了我们提出的 VLPD 在小尺度和重度遮挡等挑战性情况下均具有优越的性能。

Abstract

Detecting pedestrians accurately in urban scenes is significant for realistic applications like autonomous driving or video surveillance. However, confusing human-like objects often lead to wrong detections, and small scale or heavily occluded pedestrians are easily missed due to their unusual appearances. To address these challenges, only object regions are

pedestrian detection vision-language self-supervision context-aware detection semantic segmentation prototypical contrastive learning

发现论文，激发创造

结合以语言驱动的外观知识单元和视觉提示的行人检测

通过将大型语言模型与视觉线索相结合，我们提出一种新的方法来理解语境外观变化并将其知识应用于行人检测任务，通过与大量描述行人外观的叙述语料库结合，提取代表外观变化的知识集合，并通过任务驱动的过程获得与行人检测相关的外观知识单元，最终实现与视觉线索的融合，从而提供丰富的外观信息，并验证了该方法的有效性。

Nov, 2023

SemiVL: 基于视觉 - 语言引导的半监督语义分割

SemiVL 是一种结合了视觉 - 语言模型的丰富先验知识与半监督语义分割的方法，通过空间微调策略和语言引导解码器的设计，以及提供类别定义的语言指导，实现了更好的语义决策边界。在 4 个语义分割数据集上进行评估时，SemiVL 明显优于以前的半监督方法，例如，在带有 232 个已注释图像的 COCO 上，mIoU 提高了 + 13.5，在带有 92 个标签的 Pascal VOC 上，mIoU 提高了 + 6.1。

Nov, 2023

利用渐进隐变量模型的自学习场景特定行人检测器

本文提出了一种基于自学习的方法，用于解决针对场景的行人检测问题，避免人类注释。该方法采用渐进式的目标发现、目标加强和标签传播步骤，其中使用渐进潜在模型来解决每个帧中的目标定位问题，并结合空间正则化和基于图的标签传播来改善定位和发现更难的实例。实验结果表明，即使没有标注，提出的自学习方法优于弱监督学习方法，同时与迁移学习和全面监督学习方法实现了可比较的性能。

Nov, 2016

无监督多视角行人检测

本文提出了一种无监督多视图行人检测方法（UMPD），通过利用视觉 - 语言预训练模型的零样本语义类别，结合迭代主成分分析和垂直差分渲染技术，不依赖于标记数据完成多视图行人检测，具有与有监督技术媲美的性能。

May, 2023

语义驱动的多摄像头行人检测

本论文介绍了一个利用自动提取的场景上下文信息的多摄像头全局组合行人检测方法，通过语义分割技术获得上下文信息用于自动生成场景的共同区域，从而获取一系列的联合检测框。相比其他同类方法，本文提出的方法具有场景无关性和实现的快速性，且在五个公共数据集上验证具有更好的性能。

Dec, 2018

自导引开放词汇语义分割

通过提出自主引导的语义分割（Self-Seg）框架和基于 LLM 的开放式词汇评估器（LOVE），在不需要提供类别名称的情况下，实现了开放式词汇分割的最新成果，并与提供类别名称的方法相竞争，取得了 Pascal VOC、ADE20K 和 CityScapes 的最具竞争力的结果。

Dec, 2023

自动驾驶的视觉语言规划

自主驾驶中的场景理解和推理是复杂而具有挑战性的任务。本文提出了一种新颖的 Vision-Language-Planning（VLP）框架，通过利用自然语言模型来弥合语义理解和自主驾驶之间的鸿沟，从而增强自动驾驶系统的规划性能，提高在挑战性场景中的表现，以及在面对新型城市环境时的强大泛化能力。

Jan, 2024

基于语言的视觉一致性用于零样本语义分割

通过基于训练的视觉 - 语言模型，CLIP，使用变换器解码器将视觉特征与类别嵌入对齐，生成语义分割掩码，本研究提出一种语言驱动的视觉共识（LDVC）方法，通过利用类别嵌入作为锚点，引导视觉特征朝向类别嵌入，通过引入路由注意力来增强同一对象内的语义一致性，并配备视觉 - 语言提示策略，显著提升了未见类别的分割模型的泛化能力，实验结果在 PASCAL VOC 2012 和 COCO-Stuff 164k 上比现有方法在未见类别上获得了 4.5 和 3.6 的 mIoU 增益。

Mar, 2024

KD-VLP: 用目标知识蒸馏改善端到端的视觉与语言预训练

本文提出了一种基于图片格特征和语言信息的端到端多模式表示学习框架，其中使用自监督的对象知识蒸馏以提高跨模态对齐的准确性和效率，并在广泛的视觉和语言任务上取得了竞争性的表现。

Sep, 2021

自动驾驶中的无监督 3D 感知与 2D 视觉语言蒸馏

本文介绍了一种多模态自动标注流程，可以生成用于训练开放式类别的无标注 3D 边界框和轨迹，从而处理自动驾驶等安全关键应用中可能在部署后遇到的新物体类型。相比于当前领域的最新研究，我们的方法可以以无监督的方式处理静态和移动的对象，并通过提出的视觉 - 语言知识蒸馏方法输出开放式词汇的语义标签。基于 Waymo 开放数据集的实验证明，我们的方法在各种无监督 3D 感知任务上显著优于先前的工作。

Sep, 2023