- ACL使用门控融合方法提高自然语言处理模型升级的预测向后兼容性
本文提出了一种名为 “Gated Fusion” 的新方法,它通过学习在旧模型和新模型之间混合预测来促进向后兼容的模型升级,实验结果表明,该方法平均降低了 62% 的回归错误,比最强基线平均提高了 25%。
- 在上下文中的学习蒸馏:转移预训练语言模型的少样本学习能力
通过 in-context learning distillation 技术,将大型已预训练的语言模型的能力转移至小型模型,同时结合语言建模目标,提高了多任务学习和少样本学习的性能,实验结果表明,多任务学习下拥有语言建模目标的 in-con - ICLR自编码器作为跨模态的教师:预训练的二维图像变换器是否能帮助三维表示学习?
本研究使用自监督学习从 2D 图像和自然语言预训练 Transformers 的潜在特征教授 3D 表示学习,进一步促进了跨模态的知识转移和基础几何理解,实现了在各种现有测试中的最先进泛化能力。
- 通过对抗知识蒸馏的闪电般快速视频异常检测
提出了一种非常快的视频异常检测模型,通过从多个高精度的目标级教师模型中提取知识来学习检测异常。通过联合应用标准和对抗蒸馏,利用对每个教师的对抗鉴别器来区分目标和生成的异常图,从而提高了学生的保真度。对三个基准数据集(Avenue,Shang - SkillS: 自适应技能序列用于高效的时间扩展探索
我们提出了一种在多个领域中比现有方法更出色的技能转移方法,通过学习现有的时间扩展技能序列来进行探索,并直接从原始经验中学习最终策略,实现快速适应和高效数据收集。
- 减少、重用、回收:通过蒸馏提高训练效率
本文研究了如何利用蒸馏来提高深度学习模型的训练效率,实验发现,蒸馏在 ResNet-50 和 BERT 模型上可以提高训练速度,尤其是在 BERT 模型初期进行蒸馏可以取得最佳效果。此外,通过对蒸馏方法的一些优化可以进一步提高蒸馏的效率。
- 自我监督语音模型的有效蒸馏在自动语音识别中的应用探究
本文旨在研究将 HuBERT 基于自监督学习的模型进行有效的蒸馏,用于自动语音识别。我们进行了综合研究,设计了一种简单有效的算法,将参数减少 17%,将推理速度翻倍,同时又能在功能上达到满意的性能降级。
- EMNLP使用检索增强和多阶段精炼的大型语言模型的查询意图
本文介绍一种实用而有效的检索增强方法(QUILL),它能够通过检索增强大型语言模型在查询理解方面的能力,而不会增加计算量。我们提出了一种新颖的两阶段蒸馏方法来处理检索增强的模型,证明了这种方法在公共基准测试中取得了出色的性能。
- 使用未标记的例子进行加权蒸馏
本文探讨了一种主要用于训练深度神经网络的知识蒸馏方法,其使用未标记的数据集作为输入。该方法提出了一种基于 “去偏” 方法的小网络共同训练框架,不需要超参数并且能在普遍学术数据集上展示出明显的改进效果。
- 自然语言处理中用于模型保护的抗蒸馏水印技术
本文提出了一种名为 DRW 的新型水印技术,可以通过将水印注入受害者的预测概率中,以保护 NLP 模型免受盗窃攻击,并能够探测到这样的攻击,这种方法在各种 NLP 任务中均表现出较强的保护和检测能力。
- 神经精馏在强化学习中的状态表示瓶颈
通过模拟多个策略的过程进行知识蒸馏以及使用单个神经网络来学习有利特征的状态表示,可用于强化学习的多个任务之间的转移和更好的泛化能力,并通过选择重要变量、有效分离状态以及新任务的鲁棒性等三个标准对状态编码进行评估。
- 将深度强化学习模型提炼成可解释的神经 - 模糊系统
本文提出了一种使用深度强化学习中的策略来压缩神经模糊控制器的算法,该方法通过蒸馏将深度神经网络里的模型精华提取并转化成较小的规则库,可以在保持灵活性的同时,提升模型的可解释性。作者在 OpenAI Gym 上进行了测试,取得与深度强化学习相 - ECCV在精简 StyleGAN 时要注意差距
这篇论文提出了一种基于输出一致性和潜在空间的语义关系的潜在方向的蒸馏方法,以解决 StyleGAN 的蒸馏问题,该方法在蒸馏 StyleGAN2 和 StyleGAN3 方面的效果显著优于现有的 GAN 蒸馏方法。
- ALADIN:用于高效图像 - 文本匹配和检索的细粒度对齐分数压缩
本文提出了一种名为 ALADIN 的图文匹配方法,该方法通过精细的图像文本层次对齐产生高效得分,并通过蒸馏从层次对齐中获得的相关性得分,学习共享的嵌入空间,可在近乎 90 倍的速度下与最先进的 VL Transformer 网络相竞争,具有 - ECCVTinyViT:小型视觉 Transformer 的快速预训练蒸馏
TinyViT 是一种新型的、基于快速蒸馏框架的小型视觉 Transformer,通过使用蒸馏预训练模型的知识迁移以及对计算和参数进行限制,能够在减少参数数量的情况下依然具有较高的准确性,并且能够在多种下游任务中得到很好的转移效果。
- 基于知识蒸馏的分布式连续学习在普适计算中的应用
本文提出了一种基于蒸馏的联邦继续学习方法,通过使用定期收集的客户端数据逐步适应接收到的模型,以减少存储数据的量,避免灾难性遗忘问题,并在人类活动识别领域进行了评估。
- SPI-GAN: 直线路径插值下的评分生成模型蒸馏
通过一种增强的简化方法 -- 直线插值生成器对抗网络直接 (SPI-GAN) 进行蒸馏,取代其他常规方法,在 CIFAR-10、CelebA-HQ-256 和 LSUN-Church-256 的采样 质量 / 多样性 / 时间 方面获得更好 - KDDAlexa 教师模型:自然语言理解系统的预训练和蒸馏多十亿参数编码器
本文介绍了一个在虚拟助手 NLU 组件中进行的从预训练到蒸馏的实验,使用了介于 700M 到 9.3B 之间的参数数量不同的编码器,并从中收缩了介于 17M-170M 的较小模型,发现在预训练部分使用领域内数据可以提高模型的性能。评估结果表 - 深度强化学习的数据增强高效调度
通过网络蒸馏方法,将语义一致性先验注入深度强化学习中以提高样本使用效率和泛化性能。
- 一种自适应混合蒸馏方法用于非自回归生成
本文提出了一种基于自适应学习的混合蒸馏算法,用于进一步提高 BANG 生成质量。实验证明该方法有效性,并且不会影响推理延迟,相比 BANG 可以显著提高 BLEU 分数,在自回归生成方法方面还可获得超过 7 倍的加速。