- 文字 - 图像模型:反事实解释的黑盒操作方法
该研究提出了一种基于蒸馏的黑盒逆因果解释方法,使用只有图像和其预测结果的信息生成对分类器预测进行改变所需的最少必要特征,从而达到与其他方法相当的解释效果。
- ICCVCoRF:使用知识蒸馏进行颜色化辐射场
基于神经辐射场(Neural Radiance Field,NeRF)的方法可以对多视角图像进行高质量的新视角合成。本研究提出了一种从输入的灰度多视角图像中合成着色的新视角的方法。通过将基于图像或视频的着色方法应用于生成的灰度新视角,我们发 - 婴儿骆驼:从小数据集上训练的教师集合中进行知识蒸馏,无性能惩罚
我们提出了一种解决 BabyLM 挑战的方法,目标是提高语言模型的样本效率。我们在一个有发展潜力的 BabyLM 数据集上训练了一个由 GPT-2 和小型 LLaMA 模型组成的集成模型,然后将其蒸馏成一个小型的 58M 参数 LLaMA - 基于模型的规划提炼出有理论保证的策略改进
通过开发一种从基于模型的规划到策略的蒸馏方法,我们扩展了软负责人 - 评论者算法(SAC)的策略改进步骤,并证明了这种方法在改进过程中具有单调性和收敛性的理论保证。
- 基于预测共识的协作学习
本文提出了基于蒸馏的方法,并采用信任加权方案,使用伪标签的无标签辅助数据促进合作学习,以达成对辅助数据的标签共识。我们证明了该方案相对于本地训练能显著提高模型性能,同时也可以识别和缓解对于众多模型的负面影响。在个体数据训练以及模型架构存在异 - GripRank: 通过生成式知识改进的段落排序填补检索和生成之间的差距
本文提出了一种名为 GripRank 的算法,它通过从一个生成式的通道评估器到一个通道排名器的知识精华的提炼来解决候选通道在检索过程中被平等对待的问题,并通过设计一套课程知识提炼机制来提升知识的提炼质量,实现了对答案的生成和文本排名的优化, - ICLR面向未知数据集的蒸馏感知神经架构搜索元预测模型
提出了一种预测学生模型在教师模型下蒸馏的表现的元学习模型(DaSS),它能够推广到多个未见过的数据集以实现 DaNAS 任务的更高效性和准确性。
- PaD: 通过程序辅助精馏专门针对推理的大型模型
提出了 Program-aided Distillation(PaD)算法,该算法使用程序辅助推理强化可特化的模型,并通过自动化错误检查帮助它们克服错误的推理步骤,实验证明 PaD 具有比 LLMs 更高的训练效率,并能显著提高推理能力。
- 编码器 - 解码器语言模型的任务无关蒸馏
通过探讨 MiniEnD 方法来针对语言模型(LMs)的无特定任务的精炼,以及针对编码 - 解码 LMs 的精炼,旨在让它们保持性能同时实现计算有效,从而在语言理解和摘要制作方面得到好的效果,而且 MiniEnD 与其他备选方案相比具有良好 - Bi-ViT: 推动视觉 Transformer 量化极限
介绍一种专门用于大规模预训练模型在硬件受限设备上快速部署的量化方法,并提出一种基于可训练缩放因子和排名感知蒸馏的 Binarized ViT 模型。该方法在 ImageNet 等数据集上都取得了较高的 Top-1 准确率,并在 FLOPs - 有条件生成模型的数据遮蔽
本文研究了如何在已经训练好的条件生成模型上进行后编辑,以消除某些条件性,从而以较高的概率消除不良内容,这是通过提取模型中的条件网络实现的,该方法在保持高生成质量的同时,计算轻便,用于深度生成模型的类别具有普适性、高效性和可控性,实验结果表明 - LaMini-LM:用大规模指令生成多样化的蒸馏模型集群
研究通过将指令调整的大型语言模型知识压缩到较小的模型来降低资源消耗,经证实 可以在 15 个不同的 NLP 测试基准上与竞争对手基线相媲美,而体积约小 10 倍。
- 在严格预算下从相近任务中提炼知识以进行迁移学习
本文提出了一种名为 DistillNearest 和 DistillWeighted 的多源蒸馏方法,通过利用任务相似度度量来选择单个合适的源模型以及加权多源蒸馏方法,解决了在资源受限制的情况下,通过有限标签获取高效而准确识别系统的问题。通 - PVD-AL: 用于不同 NeRF 架构之间的高效转换的主动学习渐进体积蒸馏
该研究提出了一种名为 PVD-AL 的系统蒸馏方法,可将不同的神经辐射场架构相互转换,实现多种属性的编辑,并在多个基准数据集上验证了该方法的高性能结果。
- 基于基础模型的高效任务驱动模型重编程
该论文提出了一种基于任务的模型重新编程框架,可用于模型之间的知识跨越传递,从而便于在 Downstream 任务中使用视觉基础模型,实现向下游任务的低成本迁移。该方法适用于不同类型的预训练模型(CNN、Transformer 或其混合),并 - CVPRMobileVOS:实时视频目标分割,对比学习与知识蒸馏相遇
本文提出一种基于知识蒸馏与像素对比学习相结合的理论框架并使用有限内存的小型空时存储网络,实现在资源受限的设备上进行半监督视频对象分割任务,与最先进的模型相比取得竞争性的 J&F 评估结果,但计算成本只有最先进模型的一小部分,在三星 Gala - 实用知识蒸馏:使用 DNNs 击败 DNNs
该研究探索了用于表格数据集的数据处理方法,包括数据压缩、数据去噪和优化集成方法等,结果证明这些方法可以改进梯度提升模型和基于 DNN 架构的模型,并且在数据规模越小的情况下 DNN 模型表现越优越。
- 从深度生成模型到可处理概率电路的精馏过程理解
通过对深度生成模型知识的蒸馏,提出了新的 P-VAE 方法,该方法可以有效地提高准确性,并允许更广泛的应用,我们的结果表明,在几个基准图像数据集上,该方法比基准模型表现更好,特别是在 ImageNet32 数据集上,它取得了 4.06 位每 - ACL序列标注的编码器 - 解码器 Transformer 蒸馏
本文提出了一个无幻觉的框架,以序列标记为例,该框架非常适用于蒸馏,追求计算效率的蒸馏方法有望从这些大模型获得的知识中获益,并在多个序列标记数据集上展现了新的卓越表现,证明了这个框架在少量数据学习场景下进行大模型蒸馏的有用性。
- 通过隐形水印保护语言生成模型
提出 GINSEW 方法以保护文本生成模型免受窃取,通过在目标令牌的解码步骤的概率向量中注入秘密信号,并在疑犯模型中检测秘密信息,GINSEW 可以有效地识别知识产权侵权的实例,表现出比之前的方法对抗去除水印攻击有 19 至 29 点的平均