GMC: 一种用于视觉检测任务的多阶段上下文学习与利用的通用框架

Jul, 2024

GMC: 一种用于视觉检测任务的多阶段上下文学习与利用的通用框架

GMC: A General Framework of Multi-stage Context Learning and Utilization for Visual Detection Tasks

Xuan Wang, Hao Tang, Zhigang Zhu

TL;DR提出了 GMC 框架，用于多阶段上下文学习和利用的通用框架，利用各种深度网络架构进行各种视觉检测任务。GMC 框架包括三个阶段：预处理、训练和后处理，并通过结合语义上下文信息和视觉信息，以及利用训练数据集中的先验知识捕捉语义关系，在对象之间实现空间上下文推理。框架灵活适应用户定义的配置和多样化的网络架构和视觉检测任务，提供了一个自动化和高效的解决方案，在上下文学习和推理中最大程度地减少用户的工作量和推理时间，并在视觉检测任务中展示了超越先前状态 - of-the-art 检测器和变换器架构的实验结果。实验还证明了三个上下文学习组件不仅可以单独应用，也可以组合应用，并且可以应用于各种网络架构，在各种检测场景下具有灵活性和高效性。

Abstract

Various contextual information has been employed by many approaches for visual detection tasks. However, most of the existing approaches only focus on specific context for specific tasks. In this paper, GMC, a general framework is proposed for multistage →

context learning visual detection gmc framework semantic relationships network architectures

发现论文，激发创造

RGB-D 物体检测的跨模态注意力上下文学习

本文提出了一种基于跨模态关注上下文学习框架的方法，通过充分开发 RGB 和深度数据的上下文信息来识别物体。实验证明，该方法在所有公共基准测试中均显著提高了 RGB-D 物体检测的准确性，并提供了可解释的可视化方案。

Oct, 2018

基于遗传算法的特征选择和上下文集成的深度学习模型

本研究提出了一种新型的三层深度学习模型，通过引入一对多二元类别学习器，学习遗传算法优化的特征，并同时学习全局和局部上下文信息，从而优化整个模型以在图像分割方面取得有希望的结果。

Apr, 2022

目标检测的关注上下文

通过开发一种名为 AC-CNN 的新型神经网络模型，将全局和局部上下文信息有效地结合到区域卷积神经网络中，提高了目标检测性能，特别是在 PASCAL VOC 2007 和 VOC 2012 数据集上，与目前主流的 Fast-RCNN 算法相比在 mAP 方面分别提高了 2.0％和 2.2％

Mar, 2016

基于深度特征的目标检测上下文模型

本文提出了一种综合局部外观特征，对象关系的上下文信息和全局场景上下文特征的集合物体检测系统，该系统采用基于对象建议的完全连接条件随机场（CRF）进行建模，并利用快速平均场近似方法有效地进行 CRF 模型中的推理，实验结果表明，与基线算法 Faster R-CNN 相比，我们的方法在 PASCAL VOC 2007 数据集上实现了更高的平均精度（mAP）.

Apr, 2016

开探多模态上下文知识的开放词汇物体检测

该研究论文探索了多模态背景知识在开放词汇目标检测中的作用，并提出了一种多模态背景知识蒸馏框架，通过从多模态融合转换器中学习上下文知识并应用于学生检测器，取得了显著的提升。

Aug, 2023

多阶段对象检测，使用组递归学习

本文提出了一种基于 EM-like group recursive learning 和 multi-stage architecture 的新型物体检测方法，通过引入周围 proposals 的上下文信息来迭代地提升物体 proposals 的准确性，并结合弱监督物体分割和基于区域的物体检测方式以全方位地利用分割特征从而提高检测精度，该算法在 PASCAL VOC2007 和 VOC2012 数据集上的得分分别高达 78.6% 和 74.9%，显著优于许多现有算法。

Aug, 2016

基于多级全局上下文交叉一致性模型和扩散模型的半监督超声图像分割

我们提出了一种多级全局上下文一致性 (MGCC) 框架，它使用由潜在扩散模型 (LDM) 生成的图像作为半监督学习的未标记图像，针对医疗图像分割中全局上下文信息的缺失问题，解决了医疗图像注释工作负担和与其相关的隐私问题，该方法在公开和私人数据集上进行实验，证明了在分割网络中有效传递概率分布知识的能力，从而提高了分割准确性。

May, 2023

MLCVNet：多层上下文 VoteNet 用于三维物体检测

本文提出 Multi-Level Context VoteNet（MLCVNet）方法，通过使用自注意力机制和多尺度特征融合来捕捉多层次的上下文信息，从而建立在当前先进技术 VoteNet 的基础之上，在投票和分类阶段引入三个上下文模块来编码不同层次的上下文信息，从而有效提高检测精度，在 SUN RGBD 和 ScanNet 等具有挑战性的 3D 目标检测数据集上取得了新的检测性能最佳表现。

Apr, 2020

细粒度车辆识别的渐进式多任务抗噪学习和蒸馏框架

本文提出了一种渐进式多任务抗噪声学习（PMAL）框架和一种渐进式多任务蒸馏（PMD）框架，以解决细粒度车辆识别中由图像噪声引起的类内差异问题。通过将图像去噪视为图像识别中的一项额外任务，并渐进地使模型学习噪声不变性，PMAL 框架实现了较高的识别准确性。PMD 框架将 PMAL 训练模型的知识转移到原始骨干网络中，产生一个具有与 PMAL 训练模型相同识别准确性的模型，但没有原始骨干网络的额外开销。结合这两个框架，在 Stanford Cars 和 CompCars 等两个广泛使用的标准细粒度车辆识别数据集，以及北京理工大学（BIT）车辆、Vehicle Type Image Data 2（VTID2）和 Vehicle Images Dataset for Make Model Recognition（VIDMMR）等三个监控图像车辆类型分类数据集上，获得了显著超过以往最先进方法的模型，而没有原始骨干网络的额外开销。

Jan, 2024

基于上下文编码器 - 解码器网络的视觉显著性预测

该论文提出了一种基于卷积神经网络的方法，通过提取多尺度的高级视觉特征和上下文信息，结合全局场景信息，用于准确预测视觉显著性，可以适用于资源受限的应用，如（虚拟）机器人系统，从而在多个基准测试数据集上取得了有竞争力和一致的结果。

Feb, 2019