自然语言理解中模型蒸馏和剪枝的稳健性挑战

ACLOct, 2021

自然语言理解中模型蒸馏和剪枝的稳健性挑战

Robustness Challenges in Model Distillation and Pruning for Natural Language Understanding

Mengnan Du, Subhabrata Mukherjee, Yu Cheng, Milad Shokouhi, Xia Hu...

TL;DR本研究分析了两种流行的模型压缩技术对于预训练语言模型鲁棒性和泛化能力的影响，并且在样本不确定性的基础上提出了一种偏见缓解框架，用于提高模型的泛化能力。

Abstract

Recent work has focused on compressing pre-trained language models (PLMs) like BERT where the major focus has been to improve the in-distribution performance for downstream tasks. However, very few of these studies have analyzed the impact of compression on the →

pre-trained language models model compression generalizability robustness sample uncertainty

发现论文，激发创造

模型压缩能提高自然语言处理的公平性吗

本文首次研究了模型压缩技术对生成性语言模型的毒性和偏见的影响，我们在 GPT2 模型上测试了知识蒸馏和剪枝方法，发现模型蒸馏后有毒性和偏见的减少，这个结果可以被解释为模型压缩的正则化技术，我们的工作不仅可以作为压缩模型安全部署的参考，而且将 “压缩作为正则化” 的讨论扩展到了神经语言模型领域，并暗示了使用压缩来开发更加公平的模型的可能性。

Jan, 2022

GLUE-X: 从越界泛化角度评估自然语言理解模型

本文介绍了创建一个名为 GLUE-X 的统一基准的首次尝试，该基准用于评估自然语言处理模型中的 OOD 鲁棒性，在 13 个公开可用的 OOD 测试数据集上验收模型，发现模型在 OOD 任务上的性能明显下降，对提高模型鲁棒性提供了一些见解和改进方案。

Nov, 2022

深度学习压缩中的迁移能力鲁棒性

本文介绍了两种增强深度神经网络压缩系统鲁棒性的方法，采用分布鲁棒优化和结构化潜在代码进行训练，取得较传统深度神经网络压缩器更优的效果。

Oct, 2021

基于 BERT 的问答模型的结构化剪枝

本文针对自然语言处理中使用的 BERT 和 RoBERTa 模型进行了压缩，使用结构化剪枝和专门化蒸馏相结合的方法，实现了在保持高精度的同时速度大幅提升。

Oct, 2019

使用参数高效迁移学习探索语言模型的越界鲁棒性

本研究系统地探讨了在预训练语言模型（Pre-trained Language Models）规模扩大或转移方法改变时，检测样本分布变化的能力如何随之改变，着重评估了各种 PETL 技术在三个不同意图分类任务上的效果。

Jan, 2023

预训练语言模型在非分布数据上的扩散效应是如何影响的？

使用 Transformer 预训练语言模型（PLMs）中的扩散模型降低了离群值鲁棒性，并提供了对离群样本的强力检测能力。

Jul, 2023

压缩转换器语言模型的任务无关蒸馏方法的比较分析

通过多项实验研究，我们发现基于 MiniLMv2 的 Multi-Head Attention 转移是蒸馏中更优选的方法，并解释了其成功的可能原因。此外，我们还发现基于 Hidden State 转移的方法在精妙的层映射策略下依然是竞争性的基准，而 Output Distribution 转移一直落后于其他方法。研究结果帮助我们为延迟关键应用部署高效且有效的学生模型。

Oct, 2023

压缩具有外部分布泛化能力的大型视觉语言模型

大规模视觉 - 语言模型的蒸馏是一个具有潜力的方向，本文研究了利用小型或中型数据集将大型视觉 - 语言模型的视觉表示转化为轻量级学生模型，提出了两个原则来增强学生模型在开放词汇分布下的泛化能力，并在开放词汇分布下的分类任务中取得了显著改进。

Jul, 2023

提高预训练语言模型的泛化能力

预训练语言模型 (PLMs) 的可重用性常受到其泛化问题的限制，该问题表现为在评估与训练数据集不同的示例时，性能显著下降，被称为离群 / 未知示例。本文提出了一种名为 Mask-tuning 的训练方法，通过将掩码语言建模 (MLM) 训练目标整合到微调过程中，提高了 PLMs 的泛化能力。全面的实验证明，Mask-tuning 超越了当前最先进的技术，并增强了 PLMs 在离群数据集上的泛化能力，同时提高了它们在分布数据集上的性能。研究结果表明，Mask-tuning 改善了 PLMs 在未知数据上的可重用性，使其在实际应用中更加实用和有效。

Jul, 2023

自然语言理解中大型语言模型的快速学习：综述

本文介绍了大型语言模型的概念、挑战和解决方法，着重关注了数据集偏差和简化学习对其抗干扰性的影响，提出了识别和缓解这些影响的方法，并探讨了未来可能的研究方向。

Aug, 2022