- ICML通过合成锚点克服分散式联合学习中的数据和模型异质性
我们提出了一种名为 DeSA 的新型分散式联邦学习(FL)技术,通过引入合成锚点来解决分散式 FL 中的数据和模型异质性管理问题,并在领域自适应和知识蒸馏理论基础上从理论和实证上展示了其有效性。
- 稠密提取累积知识用于连续学习
连续学习面临的致命遗忘问题可以通过稠密知识蒸馏方法得到改善,该方法可以在所有任务间蒸馏累积知识,提高模型的稳定性。
- SciQAG: 自动生成科学问答数据集的框架及细粒度评估
通过从科学文献中提取的信息,利用科学问答对生成的自动评估框架 SciQAG 表明,大型语言模型可用于从文献中提取关键知识的高质量科学问答对。
- AdaKD:使用自适应损失加权的 ASR 模型动态知识蒸馏
本文提出了一种自适应知识蒸馏技术,通过课程学习的启发,以实例级别自适应地加权损失,并实验证明该方法优于传统的知识蒸馏方法和现有的实例级别损失函数。
- ICMLMH-pFLID:医疗数据分析的模型异构个性化联合学习:注入与蒸馏
通过使用轻量级的消息模型,Model Heterogeneous personalized Federated Learning via Injection and Distillation (MH-pFLID) 是一种新颖的联邦学习范式, - Markowitz 会见贝尔曼:知识蒸馏强化学习用于资产组合管理
利用知识蒸馏进行训练的混合方法,将 Markowitz 的投资组合理论与强化学习相结合,通过两个训练阶段(监督学习和强化学习)来优化投资组合装配,结果表明我们的模型在回报和夏普比等指标方面表现出色,确保了在相似回报情况下的最高盈利和最低风险 - GOVERN:梯度方向投票集成用于多教师强化蒸馏
在此研究中,我们提出了一种名为 GOVERN 的新算法,用于有效地将多个教师的知识进行集成,以解决无地标标签指导下实施无监督蒸馏以保持高性能的问题。GOVERN 算法在离线和在线实验中都取得了显著的改进,并已成功应用于实际商业问答系统。
- 合成与真实之间的鸿沟:利用迁移学习探索稳定扩散生成数据边界
通过对于学生模型的不同层进行实验研究,本文发现学生模型的精度下降主要源于模型的最后几层,进而调查了其他因素的影响,同时结合研究成果提出了通过在最后几层上使用真实数据对合成训练的模型进行微调来改善训练数据使用效率和模型准确度之间的权衡问题。
- 子目标蒸馏:提升小型语言代理的方法
通过层次化代理模型和知识蒸馏,将大型语言模型的性能通过转移学习到小型语言模型,在科学世界的多任务交互文本环境中胜过其他大型语言模型方法,从而提高了效率。
- 语义目标函数:向深度学习中添加逻辑约束的一种分布感知方法
通过结合逻辑和信息几何,我们提出了一种将知识嵌入和逻辑约束引入机器学习模型中的方法,通过构造分布并将其与原始损失函数以及费舍尔 - 劳距离或库尔巴克 - 莱布勒散度相结合构造损失函数,以输出概率分布来包含逻辑约束。
- 推进预训练教师:朝着异常检测的稳健特征差异
本文提出了一个名为 AAND 的简单而有效的两阶段工业异常检测框架,通过连续进行异常放大和正常性蒸馏来获得强大的特征差异。通过引入合成异常和反向蒸馏范式,该方法在 MvTecAD、VisA 和 MvTec3D-RGB 数据集上取得了最先进的 - 对于无偏 PAC 学习的误差指数
在本文中,我们通过考虑错误指数这一在信息理论中广泛应用的分析方法,研究了统计学习理论和可能近似正确(PAC)准则。在一定的稳定性假设下,我们发现二分类问题中 PAC 错误概率的指数行为,从而建立了对无知学习中可能近似正确学习的理论分析基础。 - CrossMatch: 强化半监督医学图像分割的扰动策略和知识蒸馏
CrossMatch 是一种新颖的框架,通过与双扰动策略(图像级和特征级)结合使用知识蒸馏技术,从标记和未标记数据中提高模型的学习能力,通过生成多样化的数据流进行自知识蒸馏,从而在医学图像分割中显著优于其他最先进的技术,在标准基准测试中有效 - 知识蒸馏为何有效?重新思考其注意力和忠实度机制
知识蒸馏是一种知识传输过程,但是模仿教师并不能始终提高学生的泛化性能,研究表明通过增加数据增强可以降低教师模型的关注度之间的交集从而降低学生过拟合和减少知识蒸馏的保真度,这种低保真现象可以用于优化学生模型性能。
- ACL知识蒸馏与固定计算预算下的从零开始训练对比
相对于基于标准语言模型(LM)的从头开始预训练,知识蒸馏(KD)需要额外进行一次前向传递,通常所用的教师模型大大超过目标学生模型。本研究比较了从头开始预训练与几种 KD 策略在计算资源和预训练数据方面的表现,结果发现虽然从头开始预训练与固定 - 数据增强的两面性:基于非对称蒸馏的开放集识别的双赢解决方案
通过实证调查,我们发现多样本增强对减少特征鉴别具有积极影响,从而减少了开放集识别的要求;为了解决特征通过模仿会造成混淆语义的问题,我们提出了一种不对称蒸馏框架,通过为教师模型提供额外的原始数据来增加教师模型的收益;此外,我们还采用了联合互信 - 点击率预测的检索导向知识
本文提出了一种通用的即插即用检索导向的知识(ROK)框架,通过设计一个知识库,利用知识蒸馏和对比学习方法来优化知识库,并将学习到的检索增强表示与任意 CTR 模型以实例级和特征级的方式进行集成,从而实现了与基于检索的 CTR 模型相当的性能 - 通过部分知识蒸馏提高低质量骨架数据的动作识别能力
为解决低质量骨架动作识别问题,本文提出了一个通用的知识蒸馏框架,利用师生模型结构和基于部分的骨架匹配策略,通过多样本对比损失实现从高质量到低质量骨架的知识迁移,进而训练出可以处理低质量骨架的学生模型。实验证明了该知识蒸馏框架的有效性。
- 跨架构知识蒸馏促进卷积神经网络在高效单目深度估计中的应用
提出了一种名为 DisDepth 的跨体系结构知识蒸馏方法,用于增强具有卷积结构的高效卷积神经网络模型的性能,并且通过教师模型传递有价值的信息以改进单目深度估计的准确性。
- 在线推荐系统的检索与提取:一种无时序数据偏移的框架
在当前的推荐系统中,时间数据的转变构成了一个重要挑战。为应对数据转变,我们设计了一种使用检索技术的框架来利用转变的数据来训练相关性网络,并使用知识蒸馏将相关性网络的知识转移到参数化模块中,即搜索蒸馏模块。我们将这整个过程称为检索与蒸馏范式(