- InFiConD:基于概念的知识蒸馏的交互式无代码微调
本研究提出了一种名为 InFiConD 的新框架,通过利用视觉概念实现知识蒸馏过程并实现后续的零代码微调学生模型,从而解决了在计算资源有限的环境中部署大型预训练模型的挑战。研究通过提取来自概念语料库的文本对齐视觉概念来构建高度可解释的线性学 - ACL教学助理在低预算场景中提高从不完美教师模型的知识蒸馏
通过提出一个三组件框架,利用自洽性、鉴别性和教师的不确定性作为学生培训的三种信号,我们在资源受限、教师性能不完美的场景中提高了样本效率。实验证明,相较于没有任何信号进行微调的情况,我们提出的两阶段框架平均带来了 20.79% 左右的相对提升 - ICML基于关键点的渐进式思维链提取法用于 LLMs
KPOD 框架通过利用遮罩学习来鼓励学生精确模仿关键点标记,并通过渐进式教学策略逐步扩展到整个论证过程,实现了来自大型语言模型的推理能力向较小学生模型的转移,取得了远超之前方法的广泛实验结果。
- 合成与真实之间的鸿沟:利用迁移学习探索稳定扩散生成数据边界
通过对于学生模型的不同层进行实验研究,本文发现学生模型的精度下降主要源于模型的最后几层,进而调查了其他因素的影响,同时结合研究成果提出了通过在最后几层上使用真实数据对合成训练的模型进行微调来改善训练数据使用效率和模型准确度之间的权衡问题。
- 教师 - 学生训练用于去偏:大型语言模型的一般排列去偏
本论文研究了使用蒸馏技术将计算密集的、被消除偏见的教师模型的功能提炼到更紧凑的学生模型中,通过两种学生模型的探索,一种基于纯蒸馏的模型,另一种基于纠错方法用于更复杂的任务,学生模型纠正教师模型的单个有偏决策以达到无偏结果,并证明较小、仅编码 - KARL: 知识感知检索和表示在学生的保持和学习中的应用
使用检索和 BERT 嵌入式的 KARL 设计出的模型,能够有效和准确地预测学生的记忆,并在 AUC 和校准误差方面优于现有模型,同时还提出了一种利用 DKT 模型的预测能力在线部署 KARL 的教学策略,证明其在中期教育学习中增强学习效果 - 优秀教师解释:解释增强的知识蒸馏
通过优化经典 KD 损失和教师与学生生成的解释的相似度,提出的解释增强型 KD(e^2KD)能够显著提高准确性和学生 - 教师一致性,并确保学生从教师那里得到正确的原因和相似的解释,同时能适应不同模型架构、训练数据量,甚至使用预计算的 “近 - 在机器教学中操纵离散输入的预测
在离散领域中,这篇论文以机器教学为重点,通过高效更改训练数据,利用组合优化问题和迭代搜索算法,有效地操纵模型的预测,超越传统基准线。
- 高效生物医学实例分割的图关系蒸馏
我们提出了一种用于高效生物医学实例分割的图关系蒸馏方法,考虑了实例级特征、实例关系和像素边界这三种关键知识类型。我们引入了两种图蒸馏方案:实例图蒸馏(IGD)和亲和图蒸馏(AGD),通过保持实例图和像素亲和力的一致性来传递实例特征、实例关系 - EMNLP何为合理点火?用于消除可消除的社交和道德情境的上下文和理由的迭代自提纯
在现实场景中,准确地代表人类的道德判断的微妙和复杂程度对于理解各种有争议的情境至关重要。本文介绍了一种可召集的道德推理任务,提供使行为在道德上更或更少可接受的有力背景,并搭配常识理由来证明推理。通过迭代的自我蒸馏方法,我们获得了一个学生模型 - KDD走向语义图像分割中的可比较知识蒸馏
知识蒸馏可解决语义分割中的大型模型和慢速推理问题。研究中鉴定了 14 篇发表于近 4 年的 25 种蒸馏损失项。通过对 2022 年两篇论文的比较,揭示了超参数选择不当导致学生模型性能极端差异的问题。为了提高该领域的未来研究可比性,建立了三 - 压缩具有外部分布泛化能力的大型视觉语言模型
大规模视觉 - 语言模型的蒸馏是一个具有潜力的方向,本文研究了利用小型或中型数据集将大型视觉 - 语言模型的视觉表示转化为轻量级学生模型,提出了两个原则来增强学生模型在开放词汇分布下的泛化能力,并在开放词汇分布下的分类任务中取得了显著改进。
- 教 AI 教学:将有限的人类关注数据转化为基于注意力无限制的训练
利用 “teacher-student” 训练范式可以补充有限数量的人类提供的注释,使得在构建大型数据集时可以生成任意数量的模型生成的图像注释,并且在四种模型架构和两种显著性估计方法中均表现出优异的性能。
- 知识蒸馏在部分方差降低方面发挥作用
本文揭示了知识蒸馏方法的内在机制,对应于一种新型的随机方差缩减机制。通过在线性模型和深度线性模型的背景下实现这一方法,表明知识蒸馏可以降低随机梯度噪声,从而减少模型复杂度,但是需要进行参数化的调整。
- DisCo: 基于蒸馏的学生模型联合训练用于半监督文本挖掘
DisCo 使用知识蒸馏从一个大的 PLM 中生成小的学生模型,采用一种新颖的共训练技术来优化多个小学生模型,以促进它们的半监督学习效果,并在半监督文本分类和摘要提取任务中得到了比线性基准模型 7.6 倍更小和 4.8 倍更快的推理速度,同 - 自监督语音模型的集成知识蒸馏
本文提出了一种多自监督语音模型集成的方法,通过使用层次平均聚合不同教师模型的表示,并为学生模型提出了多重预测头方法,从而大大提高了四个下游语音处理任务的性能,并在 SUPERB 基准的隐藏集轨道中取得了显著的成果。
- 任务感知分层蒸馏:语言模型压缩的 “减法即增益
本研究提出一种名为 TED 的任务感知分层蒸馏方法,通过使用任务感知滤波器,选取有用于目标任务的知识来减小知识差距,从而在学生和教师之间减小知识差距并帮助学生更好地适应目标任务,在连续预训练和微调的两种情况下,TED 都比现有的蒸馏方法表现 - 针对迁移学习的模型倒置攻击:无需访问模型即可实现模型倒置
本文提出两种黑盒模型反演攻击方法,不需要查询学生模型,可以成功地从传统教师模型转移学习中的学生模型中恢复高度可识别的数据记录。
- 哪个学生最好?针对任务特定 BERT 模型的综合知识蒸馏考试
本文研究使用知识蒸馏从 BERT 模型到各种学生模型(BiLSTM、CNN、BERT-Tiny、BERT-Mini 和 BERT-Small)对印尼语文本分类和序列标记进行实验研究,提出了效率高的知识蒸馏训练机制,并发现使用 BiLSTM - ACL稀疏蒸馏:使用更大的学生模型加速文本分类
将最先进的 Transformer 模型转化为轻量级的 Student 模型是减少推理时间中计算成本的一种有效方法。本文进一步将 Teacher 模型提炼出更大、稀疏的 Student 模型,并在单句文本分类任务中表明,这些 Student