跨架构知识蒸馏促进卷积神经网络在高效单目深度估计中的应用

Apr, 2024

跨架构知识蒸馏促进卷积神经网络在高效单目深度估计中的应用

Promoting CNNs with Cross-Architecture Knowledge Distillation for Efficient Monocular Depth Estimation

Zhimeng Zheng, Tao Huang, Gongsheng Li, Zuyi Wang

TL;DR提出了一种名为 DisDepth 的跨体系结构知识蒸馏方法，用于增强具有卷积结构的高效卷积神经网络模型的性能，并且通过教师模型传递有价值的信息以改进单目深度估计的准确性。

Abstract

Recently, the performance of monocular depth estimation (MDE) has been significantly boosted with the integration of transformer models. However, the →

monocular depth estimation transformer models knowledge distillation cnn models efficient backbones

发现论文，激发创造

TIE-KD：基于教师独立和可解释的知识蒸馏的单目深度估计

一种名为 TIE-KD 的新型教师无关可解释知识蒸馏框架，基于深度概率图 (DPM) 对教师模型的输出进行解释，实现了高效的基于特征的知识蒸馏，提高了紧凑型学生模型的学习效能，并在评估了 KITTI 数据集后表现出了优于常规响应型知识蒸馏方法的稳健性和适应性。这种方法具有较高的潜力，适用于需要高效、可解释的模型的实际应用和部署。

Feb, 2024

Refine and Distill: 利用循环不一致性和知识蒸馏进行无监督单目深度估计

提出了一种基于自监督深层模型的新型单目深度估计框架，其中包括通过反向循环模型进行的深度估计网络优化、信息蒸馏等策略。此框架在 KITTI 基准测试中表现出良好的性能，胜过了目前的非监督方法。

Mar, 2019

$V_kD:$ 使用正交投影来改进知识蒸馏

通过特征蒸馏方法，我们的研究提出了一种新的约束特征蒸馏方法，该方法可以应用于训练小型高效的深度学习模型，并在 ImageNet 数据集上获得了显著的性能提升。

Mar, 2024

DepthFormer：利用长程相关性和局部信息进行准确的单眼深度估计

该研究提出了一种基于 Transformer 和 CNN 特征组合的分层聚合模型，以解决有监督单目深度估计的问题，实验结果表明，该模型在 KITTI、NYU 和 SUN RGB-D 等数据集上均超越了现有的有监督单目深度估计方法，特别是在 KITTI 深度估计基准测试上实现了最具竞争力的结果。

Mar, 2022

ADU-Depth: 基于注意力机制和不确定性建模的深度估计的注意力蒸馏

通过训练师生网络用于深度估计，在单眼图像中引入空间线索以及利用知识蒸馏框架，包括特征蒸馏、响应蒸馏和显式建模深度估计的不确定性，优化深度估计，提高学习性能。

Sep, 2023

跳跃注意力的单目深度预测

通过引入基于注意力机制的 Skip Attention Module，使得 Monocular Depth Estimation 的编码器和解码器特征更好地融合；并将问题表述为一个像素查询细化问题，利用提出的 Bin Center Predictor 模块进行限制性回归。在 NYUV2 和 KITTI 两个数据集上进行的广泛实验均表明，该架构的性能优于现有技术，并在 SUNRGBD 数据集上具有更好的泛化性能。

Oct, 2022

跨架构蒸馏用于人脸识别

该研究提出了两种解决方案，即 URFM 和 APT，帮助在人脸识别的跨体系结构知识蒸馏中解决教师和学生之间的差异性空间信息以及教师网络在处理蒸馏特定知识方面的能力不足的问题。

Jun, 2023

m2mKD：Modular Transformers 的模块到模块知识蒸馏

我们提出了一种模块到模块的知识迁移方法（m2mKD），通过将具有共享元模型的教师模块和学生模块相结合，鼓励学生模块模仿教师模块的行为。在两种不同的模块化神经架构：神经注意电路（NACs）和视觉专家混合（V-MoE）上应用 m2mKD，我们获得了显着改进的分类准确率和鲁棒性。实验结果表明，我们的方法为将模块化网络与预训练的整体模型相连接提供了一种有希望的解决方案。

Feb, 2024

自监督单目深度估计泛化性的深入挖掘

本文研究使用自监督单目深度估计算法的主干网络（如 CNNs，Transformers 和 CNN-Transformer 混合模型）在广泛的公共数据集上的泛化性能，观察到 Transformers 具有很强的形状偏差，而 CNNs 则具有很强的纹理偏差，同时提出了一种新的 CNN-Transformer 混合网络，名为 MonoFormer，该模型具有最佳的广义性能和分类性能。

May, 2022

自监督单目深度估计中的 Transformer 模型（不考虑相机内参）

研究在自动驾驶和高级驾驶辅助系统下，使用视觉转换器作为新的方法来进行单目深度估计，在 KITTI 深度预测基准上取得了与卷积神经网络相似的性能，同时具有更强的鲁棒性和可扩展性。

Feb, 2022