基于知识聚合和蒸馏的主动目标检测

May, 2024

基于知识聚合和蒸馏的主动目标检测

Active Object Detection with Knowledge Aggregation and Distillation from Large Models

Dejie Yang, Yang Liu

TL;DR提出了一种基于知识集成和知识蒸馏的活动物体检测方法，通过提供关于物体相关的可行交互信息来改善活动物体检测，实现了当前最先进的性能。

Abstract

Accurately detecting active objects undergoing state changes is essential for comprehending human interactions and facilitating decision-making. The existing methods for active object detection (AOD) primarily re

active object detection state changes object interactions knowledge aggregation knowledge distillation

发现论文，激发创造

一种简单的知识蒸馏框架用于开放世界物体检测

通过蒸馏视觉 - 语言模型中的开放世界知识，并提出一种权重降低的损失函数以及通过分离定位和识别来减少已知和未知对象的相互影响，我们成功地改进了未知对象的检测性能。

Dec, 2023

目标检测的多实例主动学习

本文提出了一种基于多实例学习的主动物体检测方法，使用对抗实例分类器来预测未标记集合的实例不确定性，并通过多实例学习的方法来评估图像不确定性，以减少噪音实例的影响，实验证明该方法在小标记集合上具有显著的优势。

Apr, 2021

面向开放词汇物体检测的目标感知蒸馏金字塔

本研究提出了一种基于目标感知的提取知识框架 OADP，包括 OAKE 模块和 DP 机制，通过自适应变换目标提案和引入全局和块知识提取以弥补对象精炼中的信息缺失。在 MS-COCO 数据集上，该方法取得了显著的改进。

Mar, 2023

基于概率建模的深度目标检测主动学习

本文提出了一种基于混合密度网络的深度主动学习方法，该方法通过对定位和分类器的输出估计概率分布并明确估计模型的不确定性，使用一种特殊得分函数将这两种不确定性聚合在一起以获取每个图像的信息量分数，通过 PASCAL VOC 和 MS-COCO 数据集的实验证明了该方法在物体检测方面的有效性，性能优于单模型和多模型方法，而计算成本仅为之前方法的一小部分。

Mar, 2021

在线动作检测的特权知识蒸馏

本文提出了一种基于特权信息学习的在线动作检测框架，其中包括知识蒸馏方法和 Privileged Knowledge Distillation (PKD) 方法，以缩小信息差并提高学习性能，并在两个常用的 OAD 基准测试 TVSeries 和 THUMOS14 上取得了当前最佳性能.

Nov, 2020

ALWOD: 弱监督目标检测的主动学习

ALWOD 是一种综合使用主动学习、弱监督学习和半监督学习范式的新框架，通过利用极小标记集合和大型弱标记图像集合的辅助图像生成策略来初始化模型，利用学生 - 教师目标检测对的不一致性和不确定性来选择最有信息量的图像进行注释，并引入了一种新的标注任务，基于模型提出的检测进行人工标记的选择和修正，实现了快速而有效的标注过程，从而显著缩小了只使用部分标记但经过策略选择的图像实例进行训练的目标检测模型和仅依赖完全标记数据进行训练的模型之间的差距。

Sep, 2023

光学遥感图像中基于注意力特征蒸馏的高效目标检测

提出了一种新的注重注意力的特征蒸馏（AFD）方法，通过从教师检测器中蒸馏本地和全局信息，实现了目标检测模型在资源有限的边缘设备上的高效性能。

Oct, 2023

I3DOD: 基于激励的增量式三维物体检测

我们提出了一种新的增量 3D 物体检测框架，采用提示引导的方式，通过任务共享的提示机制学习目标定位信息和类别语义信息之间的匹配关系，并通过可靠的蒸馏策略从可靠的模型转移知识，最终在两个基准数据集上表现出优于现有方法的检测性能。

Aug, 2023

深度目标检测主动学习

本研究结合活性学习和增量学习的方法，提出一种基于不确定度的适用于大多数对象检测器的主动学习度量标准，并探讨在样本选择过程中如何解决类别不平衡问题，通过系统评估在 PASCAL VOC 2012 数据集上，实现对新未标注数据集的持续探索。

Sep, 2018

预测物体状态的变化

提出了解决图像和视频中物体状态变化的问题的第一种方法，通过集成学习的视觉特征和自然语言特征来预测未来可能发生的物体状态变化，从而增强视频理解系统的预测性能。

May, 2024