TTT-KD: 基于基础模型的知识蒸馏进行测试时训练用于 3D 语义分割
深度学习模型在各种视觉任务中展现出卓越的性能,但它们常常容易受到测试时的领域转移所影响。为了缓解这些脆弱性,已经开发了测试时训练(TTT)方法,在训练时同时解决了主任务和次要任务,以在测试时作为自监督代理任务。在本文中,我们提出了一种基于多尺度特征图和离散潜在表示之间相互信息最大化的新型无监督 TTT 技术,它可以作为一项辅助聚类任务整合到标准训练中。实验结果表明,在不同的常见测试时适应基准上具有竞争力的分类性能。
Oct, 2023
本文提出了一种基于多源知识蒸馏的 3D 点云语义分割方法,采用多到单的融合方式,通过实例感知亲和性蒸馏算法获取高级结构知识,实现对于难分类类别的提升。在 SemanticKITTI 数据集中实验证明,该方法在验证集和测试集上均显著优于基线方法。
Apr, 2023
半监督语义分割的三视角知识蒸馏框架(TriKD)包括三视角编码器和双频解码器,并在 Pascal VOC 2012 和 Cityscapes 两个基准上进行了大量实验,结果表明该方法在精度和推理速度之间取得了良好的折衷。
Sep, 2023
我们提出了一种名为 TKD 的新框架,利用深度神经网络基于的模型所选择的视频帧(瞬间的感知)来蒸馏轻量级模型中的时间知识,通过进行两个新的步骤:1)基于 LSTM 的关键帧选择方法;2)新的教师束缚损失设计。使用不同的目标检测方法,在多个数据集上进行了全面的经验评估,包括 Youtube-Objects 和 Hollywood 场景数据集。我们的结果显示,与其他现代对象识别方法相比,我们在动态场景的帧上的目标检测准确度 - 速度平衡方面有着一致的提高。
Mar, 2019
通过使用单目摄像头传感器进行教学助理知识蒸馏(MonoTAKD),结合了对于 3D 场景几何形状的理解与从单张图像中重构 3D 对象信息,实现了在 KITTI 3D 对象检测基准中的标杆性能。
Apr, 2024
本文提出 X^3KD,一种基于多模态、多任务、多阶段的知识蒸馏框架,通过跨任务蒸馏、跨模态特征蒸馏、对抗训练以及跨模态输出蒸馏等方式,改进了基于多摄像头图像的 3D 物体检测模型性能,最终 X^3KD 模型在 nuScenes 和 Waymo 数据集上取得了最新的最佳性能表现,并且具有推广到基于雷达的 3D 物体检测的能力。
Mar, 2023
本文章提出了一种使用知识蒸馏技术开发高效 3D 物体检测器的方法,并在输入分辨率降低和模型压缩方面发掘教师学生模型的差异,基于现有的 KD 方法建立了一个基准测试,提出了一种改进的 KD 流程,最后在 Waymo 数据集上进行了大量实验,实现了比教师模型更高的精度和更快的运行速度。
May, 2022
基于单目视觉的三维物体检测中,本文提出了一种新的自适应方法 —— 全测试阶段自适应,在无标签测试数据上通过处理潜在的数据分布转移来自适应已经训练好的模型。通过可靠性驱动的自适应策略和噪声保护自适应策略,该方法解决了由异常测试数据引起的物体漏检问题,实验结果表明在离散分布的测试场景中 MonoTTA 模型相对于 Mono 3Det 模型带来了显著的性能提升,KITTI 上平均获得了 190% 的提升,nuScenes 上获得了 198% 的提升。
May, 2024
本文提出一种测试时训练(test-time training)的方法用于部署深度神经网络模型在不同域中数据的适配过程,其中采用实际顺序的 test-time anchored clustering(TTAC)协议来进行强化测试时间的特征学习,最终在六个测试数据集中超越其他已有的测试时训练方法。
Jun, 2022