Jul, 2024

GMC: 一种用于视觉检测任务的多阶段上下文学习与利用的通用框架

TL;DR提出了 GMC 框架,用于多阶段上下文学习和利用的通用框架,利用各种深度网络架构进行各种视觉检测任务。GMC 框架包括三个阶段:预处理、训练和后处理,并通过结合语义上下文信息和视觉信息,以及利用训练数据集中的先验知识捕捉语义关系,在对象之间实现空间上下文推理。框架灵活适应用户定义的配置和多样化的网络架构和视觉检测任务,提供了一个自动化和高效的解决方案,在上下文学习和推理中最大程度地减少用户的工作量和推理时间,并在视觉检测任务中展示了超越先前状态 - of-the-art 检测器和变换器架构的实验结果。实验还证明了三个上下文学习组件不仅可以单独应用,也可以组合应用,并且可以应用于各种网络架构,在各种检测场景下具有灵活性和高效性。