- 特权学生:关于多语言知识蒸馏中初始化价值的研究
我们调查了知识蒸馏在多语言环境中的价值和模型初始化方法,发现通过将教师模型的权重直接复制到学生模型来增强初始化对于各种多语言环境中的模型初始化最为重要,并证明了高效的权重初始化在低资源场景下仍能保留多语言能力。
- LLMs 能通过教学来学习吗?初步研究
教学,LLMs,知识蒸馏,教学学习,模型改进。
- 具有模型压缩的异构边缘设备上具有容错性的分布式推理
RoCoIn 是一种用于异构边缘设备上本地分布式执行深度神经网络推断任务的稳健合作推断机制,通过知识蒸馏从大型模型中学习独立而紧凑的学生模型,并以冗余方式部署和执行相同的学生模型以提高推断过程的容错性和系统响应速度。与几种基线方法相比,广泛 - LLM 中的低秩知识蒸馏在微电子推理中是否有用?
该论文研究使用离线的大型语言模型(LLMs)在电子设计自动化(EDA)领域的可行性,并评估了一个当代语言模型(Llama-2-7B)在解决微电子相关问题中作为微电子问答专家以及其推理和生成能力的能力,研究采用了各种适应方法,包括引入一种新颖 - 多阶段均衡蒸馏:解决序列级知识蒸馏中的长尾挑战
大语言模型(LLMs)在各种自然语言处理任务中有了显著的进展,但部署仍然需要大量的计算资源。我们介绍了一种名为 Multi-Stage Balanced Distillation(BalDistill)的框架,通过在固定的计算资源预算内动态 - EMNLPBiLD: 大型语言模型蒸馏中的双向对数损失差异
本研究探讨了基于对数几率水平的大型语言模型任务特定蒸馏,发现与视觉模型相比,微调后的大型语言模型的对数几率呈现更极端的长尾分布,长尾部分中的噪声对蒸馏性能产生影响。提出了双向对数几率差异损失(BiLD loss)作为解决方案,并通过构建对数 - WaterMono: 水底自助单目深度估计的教师引导异常遮蔽和增强提升
WaterMono 是一个用于深度估计和图像增强的新型框架,针对水下场景中的挑战,通过采用教师引导的异常掩模、深度信息结合水下图像成像模型生成增强图像以及旋转蒸馏策略来提高模型的鲁棒性,从而有效地实现了深度估计和图像增强任务。
- CVPR单一共享图像的联邦学习
通过改进知识蒸馏方法和引入一种自适应数据集修剪算法,我们提出一种新方法,在有限的共享数据集预算下,使用一幅图像成功地进行联邦学习,同时还可以训练异构的客户端架构。
- 细化点击率预测模型的相互学习
通过模型之间的相互学习算法,提高了点击率(CTR)预测模型在 Criteo 和 Avazu 数据集上的性能,相对提升了 0.66%。
- 图知识蒸馏到专家混合
通过使用一种特殊设计的学生模型(Routing-by-Memory)来解决节点分类任务中的性能问题,该模型是一种专家混合(Mixture-of-Experts),通过鼓励每个专家在隐藏表示空间的某个特定区域进行专门化,实验证明可以在多个数据 - 联邦学习中的知识蒸馏:长期挑战和新解决方案综述
本文综述了基于知识蒸馏的联邦学习的现状、方法和挑战,并探讨了隐私保护、数据异构性、通信效率和个性化等相关问题。
- 知识蒸馏的共享分类器的自适应教学
通过共享分类器实现自适应教学的知识蒸馏方法(ATSC),能够在网络参数数量仅略有增加的情况下,显著提升学生网络的性能,并在单教师和多教师场景下,在 CIFAR-100 和 ImageNet 数据集上实现了最先进的结果。
- 揭示不完整模态脑肿瘤分割:利用掩蔽预测自编码器和发散学习
通过使用 masked predicted pre-training 和 knowledge distillation 技术,以及采用 Holder pseudo-divergence 代替 KLD 作为 distillation loss - 基于时空一致性的自蒸馏学习用于脉冲神经网络
脉冲神经网络 (SNNs) 通过事件驱动、低功耗特性和高生物解释性而引起了广泛关注。本文通过知识蒸馏 (KD) 提高了预训练教师模型的 SNN 模型性能,同时探索了一种经济高效的自我蒸馏学习方法,即时间 - 空间自我蒸馏 (TSSD) 学习 - 利用自知识蒸馏引导帧级 CTC 对齐
通过引入自知识蒸馏方法,解决了自动语音识别中教师 - 学生模型帧级对齐不一致的问题,该方法使用共享编码器层并将子模型作为学生模型,提高了资源效率和性能,并通过实验证明了所提方法通过减少对齐不一致来改善性能。
- CVPR小规模无数据知识蒸馏
通过使用小规模逆置数据进行知识蒸馏,提高训练效率的数据无关知识蒸馏 (SSD-KD) 方法在图像分类和语义分割基准测试中展示了超强的性能和高效的训练。
- DistilDoc: 视觉内容丰富文档应用的知识蒸馏
针对视觉丰富的文档应用(如文档布局分析和文档图像分类),本文探讨了知识蒸馏(KD)。通过设计一种 KD 实验方法,我们研究了不同架构和容量的骨干模型之间的知识传递策略对教师 - 学生知识差距的影响,并发现一些方法可以始终优于监督学生训练。此 - 教学中的不确定性:释放目标检测知识蒸馏的潜力
提出一种基于特征的知识不确定性蒸馏范式,能够与现有的蒸馏方法无缝集成,通过蒙特卡洛 dropout 技术引入知识不确定性,提高学生模型对潜在知识的探索能力,并在目标检测任务中获得有效性验证。
- CVPRHydra-MDP: 多模态、多目标的端到端计划生成的 Hydra 蒸馏
Hydra-MDP 是一种使用多个教师模型的新范例,使用来自人类和基于规则的教师的知识蒸馏来训练学生模型,具有多头解码器以学习适应各种评估指标的多样化轨迹候选,该方法在 Navsim 挑战中获得了第一名,并在各种驾驶环境和条件下显著提高了泛 - 基于互信息引导的事先训练编码器后门缓解
本文提出了一种名为 MIMIC 的互信息引导的后门缓解技术,通过知识蒸馏从潜在后门编码器中提取干净的学生编码器,以减轻后门攻击并同时保持编码器性能。在自我监督学习中对两个后门攻击进行的评估表明,MIMIC 可以显著降低攻击成功率,仅利用不到