online knowledge distillation | BriefGPT

关键词online knowledge distillation

搜索结果 - 13

在线蒸馏中的集成学习解耦知识
通过独立的教师生成在线知识蒸馏的分离知识，以增加网络之间的差异性和降低模型崩溃的可能性，并采用衰减集成方案来提高教师的监督韧性。通过对 CIFAR-10、CIFAR-100 和 TinyImageNet 的广泛实验验证了我们方法的优越性，并
PDF7 months ago
Shoggoth：通过自适应在线学习实现高效的边缘 - 云协同实时视频推理
本文提出了 Shoggoth，一种高效的边缘云协作架构，用于提高实时视频推理性能。Shoggoth 使用在线知识蒸馏来提高受数据漂移影响的模型的准确性，并将标记过程卸载到云端，减轻边缘设备的资源约束。在边缘端，我们使用小批量来进行自适应训练
PDFa year ago
CVPR泛化问题的重要性：通过参数混合实现最小化损失平稳以实现高效在线知识蒸馏
本篇论文提出了一种在线知识蒸馏方法，采用多模型设置和参数混合的方式来提高学生的泛化性能，该方法可以达到更平坦的最小值并获得稳健的解决方案。
PDFa year ago
CVPRTeSLA: 自动对抗扩充下的测试时自学习
本文提出一种新的测试时间自学习方法，名为 TeSLA，通过在线知识蒸馏和对抗性增强来适应预训练的源模型到未标记的流测试数据，从而实现医学图像分割等任务的最佳表现。
PDFa year ago
DGEKT：一种双图集成学习方法用于知识追踪
本文提出一种新的双重图集成学习方法 (DGEKT) 用于知识追踪，该方法建立学生成绩的双重图学习结构，以捕获异构的练习 - 概念关联和交互转换，并通过在线知识蒸馏技术进行模型集成，实现更好的建模能力，实验结果表明，DGEKT 的表现优于八个
PDF2 years ago
基于代表共享的可扩展协作学习
通过在线知识蒸馏使用对比损失的新方法，保证了参与者在不共享其输入数据的情况下学习相似类别的相似特征，并将平均最后隐藏层激活的特征表示发布到中央服务器，然后客户端使用对比目标在其个人模型中蒸馏其知识，从而比独立学习和其他联邦知识蒸馏 (FD)
PDF2 years ago
ECCV可切换的在线知识蒸馏
本文提出了 Switchable Online Knowledge Distillation (SwitOKD) 模型，通过在训练阶段通过专家模式（暂停教师）和学习模式（重新启动教师）之间进行自适应切换策略以校准蒸馏差距以提高学生的性能，并
PDF2 years ago
ICML联邦学习的多层分支正则化
为克服联邦学习中数据异构和不平衡的问题，本文提出了一种新的构架规范技术，通过在每个本地模型中构建多个辅助分支，并通过在线知识蒸馏使本地模型的主路径表示与辅助混合路径保持一致，进而增强了全局模型的鲁棒性。该技术在非 iid 环境中有效并适用于
PDF2 years ago
时间序列分类中注意力机制的反思
本文提出了一种灵活的多头线性注意力（FMLA）方法，通过与可变形卷积块和在线知识蒸馏进行分层交互来提高局部感知能力。此外，我们还提出了一种简单但有效的掩码机制，以减少时间序列中的噪声影响并降低 FMLA 的冗余。通过多次以随机掩码层转发样本
PDF2 years ago
CVPR点级区域对比进行对象检测预训练
介绍了基于自监督学习的点级区域对比法，该方法用于目标检测预训练，提高了模型在像素或点级别的定位和物体区域整体性识别的表现，通过直接从不同区域中采样个体点对执行对比学习，增强了模型对输入区域质量变化的鲁棒性，同时通过在线知识蒸馏隐式地提高了初
PDF2 years ago
CVPR自我监督学习中在线知识蒸馏
本文提出了一种基于单阶段在线知识蒸馏的自我监督学习法 Distill-on-the-Go (DoGo)，采用深度互联策略，通过对齐两个模型的相似度得分的 softmax 概率来提供更好的表征质量，实验结果表明，该方法在存在噪声和有限标签以及
PDF3 years ago
特征图级别在线对抗知识蒸馏
本文提出了一种在线知识蒸馏方法，在对抗训练框架下同时传输分类概率和特征图的知识，并使用判别器区分不同网络的特征图分布进行训练，比传统的直接对齐方法（如 L1）更适用于在线蒸馏，在多个网络之间引入循环学习方案，实验表明该方法的性能显著提高，特
PDF4 years ago
ICCVMOD: 一种利用在线知识蒸馏的深度混合模型，用于大规模视频时序概念定位
探讨了一个深度混合模型，在在线知识蒸馏的帮助下，能够更好地在较小的数据集上进行微调，实现了大规模视频时间概念定位，并在 Youtube-8M 视频理解挑战中取得了第三名。
PDF5 years ago