- 通过语言引导知识蒸馏的轻量级模型预训练
本论文研究小型模型的预训练问题,提出了一种名为 Language-Guided Distillation (LGD) 的新方法,利用语言指导来帮助在大型网络和小型模型之间传递知识,实现优于现有方法的性能,验证了在分类、检测和分割等多个下游任 - 将小型模型用于改进大型模型:降低成本和提升性能
基于预训练大模型和小模型协同合作的数据分流 +(DS+)范例可通过充分利用小模型处理简单子任务,从而显著降低大模型查询的成本并提高性能。
- 小型语言模型也很不错:一项零样本分类的实证研究
该研究评估了使用不同参数和结构的小型语言模型在零射击文本分类中的性能,并发现小型模型在分类文本方面表现出色,与或超过了更大的模型,这一发现强调了资源高效的小型模型可能为特定的数据分类挑战提供可行的解决方案。
- MiniCheck:基于文本证明的 LLM 高效事实核查
通过构建合成训练数据,我们展示了如何构建具有 GPT-4 水平性能但成本降低 400 倍的小型模型,通过检查声明中的每个事实并识别跨句子的信息合成来进行验证,并发布了 LLM-AggreFact 数据集和模型。
- ICLR关于蒸馏的令人惊讶的疗效作为替代预训练小模型的研究
我们提出了一种针对小模型的训练方法,不需要吸收预训练的成本,却能获得相同的性能,并且通过知识蒸馏与对比学习的连接,能够有效地降低计算成本,提高训练速度,同时通过数据增强进一步改善性能。
- 边界与关系精馏在语义分割中的应用
通过知识蒸馏将较大的教师模型的知识传递给小型学生模型,我们提出了一种面向语义分割的有针对性的边界和关系蒸馏策略,以解决小型模型在保持边界区域完整性和保持目标区域连通性方面的错误,并在多个数据集上验证了该方法的优越性。
- 通过 Learngene Pool 构建可变尺寸模型
通过 Learngene Pool 方法,将 Stitchable Neural Networks (SN-Net) 中存在的挑战解决,从而在低资源约束条件下构建小型和可变尺寸的模型,进一步提升性能。
- 通过互动演示教授语言模型自我提升
通过 TriPosT 训练算法,这篇论文介绍如何赋予更小的模型自我改进的能力,从而减小大型语言模型与成本效益更高、运行更快的模型之间的性能差距,并且通过与大型语言模型进行互动,收集反馈和改进,并将这一经验用于训练小模型,实验证明通过学习和纠 - 通过潜在属性预训练,将小型语言模型专门化为复杂风格转换
本研究介绍了复杂文本风格转换任务的概念,并基于两个广泛适用的场景构建了复杂文本数据集。我们的数据集是这一类别的首个大规模数据集,包含 700 条改写句子和 1000 条《原神》游戏中的句子。虽然大型语言模型(LLM)在复杂文本风格转换中显示 - 重新审视对抗性鲁棒性蒸馏:鲁棒的软标签让学生更好
本研究使用了知识蒸馏的概念来提高小模型的鲁棒性,旨在改善在存储或计算资源非常有限的情况下对小型模型的有效性。通过使用 Robust Soft Label Adversarial Distillation(RSLAD)来训练鲁棒的小学生模型, - AAAI关于小型自监督对比模型的有效性研究:不使用蒸馏信号
本文提出一种无需蒸馏信号即可训练自我监督小模型的方法,验证了小模型可以完成预文本任务且避免过拟合,但会普遍遭受过聚类问题,并提出了多种缓解过聚类的假设,通过验证技术的组合可在五种小型结构上达到基线性能的改进。
- ICLRSEED: 自监督蒸馏用于视觉表征
本文主要介绍一种针对小模型的自监督学习方法 ——SElf-SupErvised Distillation (SEED), 提出将大型网络的知识通过自监督方式传递到小型网络中来提高性能,实验证明 SEED 可显著提升小型网络在下游任务上的表现 - 紧凑的多类别提升树
描述了两种扩展标准树提升算法以提高小型模型精度的方法:一是将提升形式从标量树扩展到矢量树以支持多类分类器,二是采用逐层提升方法在函数空间中进行更小的步长,从而达到更快的收敛和更紧凑的集合,并在各种多类数据集上证明了其功效。