自然语言理解中模型蒸馏和剪枝的稳健性挑战
本文首次研究了模型压缩技术对生成性语言模型的毒性和偏见的影响,我们在 GPT2 模型上测试了知识蒸馏和剪枝方法,发现模型蒸馏后有毒性和偏见的减少,这个结果可以被解释为模型压缩的正则化技术,我们的工作不仅可以作为压缩模型安全部署的参考,而且将 “压缩作为正则化” 的讨论扩展到了神经语言模型领域,并暗示了使用压缩来开发更加公平的模型的可能性。
Jan, 2022
本文介绍了创建一个名为 GLUE-X 的统一基准的首次尝试,该基准用于评估自然语言处理模型中的 OOD 鲁棒性,在 13 个公开可用的 OOD 测试数据集上验收模型,发现模型在 OOD 任务上的性能明显下降,对提高模型鲁棒性提供了一些见解和改进方案。
Nov, 2022
本文针对自然语言处理中使用的 BERT 和 RoBERTa 模型进行了压缩,使用结构化剪枝和专门化蒸馏相结合的方法,实现了在保持高精度的同时速度大幅提升。
Oct, 2019
本研究系统地探讨了在预训练语言模型(Pre-trained Language Models)规模扩大或转移方法改变时,检测样本分布变化的能力如何随之改变,着重评估了各种 PETL 技术在三个不同意图分类任务上的效果。
Jan, 2023
通过多项实验研究,我们发现基于 MiniLMv2 的 Multi-Head Attention 转移是蒸馏中更优选的方法,并解释了其成功的可能原因。此外,我们还发现基于 Hidden State 转移的方法在精妙的层映射策略下依然是竞争性的基准,而 Output Distribution 转移一直落后于其他方法。研究结果帮助我们为延迟关键应用部署高效且有效的学生模型。
Oct, 2023
大规模视觉 - 语言模型的蒸馏是一个具有潜力的方向,本文研究了利用小型或中型数据集将大型视觉 - 语言模型的视觉表示转化为轻量级学生模型,提出了两个原则来增强学生模型在开放词汇分布下的泛化能力,并在开放词汇分布下的分类任务中取得了显著改进。
Jul, 2023
预训练语言模型 (PLMs) 的可重用性常受到其泛化问题的限制,该问题表现为在评估与训练数据集不同的示例时,性能显著下降,被称为离群 / 未知示例。本文提出了一种名为 Mask-tuning 的训练方法,通过将掩码语言建模 (MLM) 训练目标整合到微调过程中,提高了 PLMs 的泛化能力。全面的实验证明,Mask-tuning 超越了当前最先进的技术,并增强了 PLMs 在离群数据集上的泛化能力,同时提高了它们在分布数据集上的性能。研究结果表明,Mask-tuning 改善了 PLMs 在未知数据上的可重用性,使其在实际应用中更加实用和有效。
Jul, 2023
本文介绍了大型语言模型的概念、挑战和解决方法,着重关注了数据集偏差和简化学习对其抗干扰性的影响,提出了识别和缓解这些影响的方法,并探讨了未来可能的研究方向。
Aug, 2022