多视角知识蒸馏强鲁棒性再识别
本文提出了一种通过知识蒸馏和数据增强强化单摄像头视角下机器人操作任务的强化学习算法的方法,在模拟和现实环境下进行了实验验证并取得了良好效果。
Mar, 2023
本文提出了一种名为 VidLanKD 的视频 - 语言知识蒸馏方法,通过在视频文本数据集上训练一个多模教师模型,再将其知识转移到一个文本数据集上的学生语言模型,以达到优化语言理解的目的。实验结果表明,VidLanKD 模型在多个语言理解任务上均取得了较好的效果。
Jul, 2021
可见光红外人物再识别是一项具有挑战性的跨模态行人检索任务,该研究提出了一种新颖的隐式判别知识学习网络 (IDKL),通过提取模态特定和模态共享特征,减少模态风格差异并提升识别知识,实现了对隐含判别信息的利用,进一步强化模态共享特征的独特性,以最小化模态差异。与现有方法相比,实验结果表明 IDKL 网络具有优越性能。
Mar, 2024
提出了一种新颖的 “时间知识传播(TKP)” 方法,该方法通过将视频表示网络学到的时间知识传播到图像表示网络来解决人物重识别问题中图像和视频特征不匹配的问题。通过大量实验,证明了该方法的有效性,并且在两个广泛使用的数据集上的综合结果明显优于现有的最先进方法。
Aug, 2019
本论文提出了一种基于结构化知识蒸馏的框架,旨在提高现代视觉仅 BEV 检测模型的效率,并在 nuScenes 基准测试上表现出显著的优越性,平均改善 2.16mAP 和 2.27NDS。
Nov, 2022
通过特征蒸馏方法,我们的研究提出了一种新的约束特征蒸馏方法,该方法可以应用于训练小型高效的深度学习模型,并在 ImageNet 数据集上获得了显著的性能提升。
Mar, 2024
我们提出了一种 CNN 到 ViT 知识蒸馏框架,包括视觉语言特征蒸馏模块 (VLFD) 和像素级解耦蒸馏模块 (PDD),实验证明我们的方法在三个语义分割基准数据集上的 mIoU 增量是最先进知识蒸馏方法的 200% 以上。
Oct, 2023
知识蒸馏可解决语义分割中的大型模型和慢速推理问题。研究中鉴定了 14 篇发表于近 4 年的 25 种蒸馏损失项。通过对 2022 年两篇论文的比较,揭示了超参数选择不当导致学生模型性能极端差异的问题。为了提高该领域的未来研究可比性,建立了三个数据集和两种学生模型的坚实基线,并提供了大量有关超参数调整的信息。在 ADE20K 数据集上,发现只有两种技术能与我们简单的基线相竞争。
Sep, 2023
我们提出了一种新颖的多教师知识蒸馏(MTKD)框架,专门用于图像超分辨率,通过结合和增强多个教师模型的输出来指导紧凑的学生网络的学习过程,并通过在空间和频率域中观察差异来优化训练过程,从而在超分辨率性能上实现了明显的改善。
Apr, 2024
针对视觉丰富的文档应用(如文档布局分析和文档图像分类),本文探讨了知识蒸馏(KD)。通过设计一种 KD 实验方法,我们研究了不同架构和容量的骨干模型之间的知识传递策略对教师 - 学生知识差距的影响,并发现一些方法可以始终优于监督学生训练。此外,我们设计了下游任务设置,评估了蒸馏的布局分析模型在零样本布局感知文档视觉问答上的鲁棒性,结果表明存在较大的知识差距,强调进一步探索如何高效获得更多的语义文档布局意识的必要性。
Jun, 2024