深度模型压缩也有助于模型捕捉歧义

ACLJun, 2023

深度模型压缩也有助于模型捕捉歧义

Deep Model Compression Also Helps Models Capture Ambiguity

Hancheol Park, Jong C. Park

TL;DR本研究提出了一种基于深度模型压缩的新方法，解决了自然语言理解中标记不确定性的问题，并发现了在低层中更合理表示的关系，这有助于减小模型的规模并改善可用性。

Abstract

natural language understanding (NLU) tasks face a non-trivial amount of ambiguous samples where veracity of their labels is debatable among annotators. NLU models should thus account for such ambiguity, but they approximate the human opinion distributions quite poorly and tend to produ

natural language understanding annotation ambiguity deep model compression relationship knowledge layer pruning

发现论文，激发创造

拥抱不确定性：转变 NLI 模型的训练目标

本文研究了在自然语言推理任务中训练模型时，直接使用标注者标签分布的方法而非正确标签的方法，并准备了 AmbiNLI 数据集，经过模型微调可以降低混沌度得分，并可提高模型性能和下游任务的表现。

Jun, 2021

面向设备的自然语言理解的极致模型压缩

本文提出了针对神经自然语言理解模型的极端压缩技术，并在资源受限设备上进行了实验。在任务知晓的全流程压缩方法中，我们将词嵌入压缩与 NLU 任务学习相结合，经大规模商业 NU 系统测试，实现了 97.4% 的压缩率，同时预测性能下降不到 3.7%。

Nov, 2020

自知力蒸馏用于学习模糊性

通过自知力蒸馏方法，有效地解决了语言模型在面对多义样本时过于自信地错误预测单一标签的问题，并通过重新校准置信度，在生成更好的标签分布上取得了显著的改进。同时，该方法相对于现有方法在训练模型时更高效，无需额外的训练过程来完善标签分布。

Jun, 2024

自然语言理解中模型蒸馏和剪枝的稳健性挑战

本研究分析了两种流行的模型压缩技术对于预训练语言模型鲁棒性和泛化能力的影响，并且在样本不确定性的基础上提出了一种偏见缓解框架，用于提高模型的泛化能力。

Oct, 2021

恐怕语言模型未对歧义建模

本论文提出了一个基于语言学家注释的语言歧义数据集，并测试了预训练的语言模型在识别和分离歧义上的表现。结果表明，这是一个极具挑战性的任务，现有的模型正确率仅为 32％，本文挑战学术界重新认识语言歧义在自然语言处理中的重要性。同时，本文还展示了一个多标签自然语言推理模型如何帮助识别由于语言歧义而引起的虚假政治言论。

Apr, 2023

深度模型压缩：从带噪声的教师中提取知识

本研究通过引入基于噪声的正则项对深度学习模型压缩中的教师 - 学生框架进行扩展，以解决模型存储大小、运行时复杂度和训练时复杂度等问题，实验结果在 CIFAR-10 数据集上表现最佳，表明该方法在深度模型压缩方面有潜力。

Oct, 2016

句子二义性、语法准确性和复杂性探测

本文研究预训练语言模型在捕捉语言学细微特征上的表现，分析了特征分类的可行性和模式，并提出警示，即不应使用表面水平数据集进行探测，应与基准线进行仔细比较，不应使用 t-SNE 图来确定向量表示中的特征是否存在。此外，本文展示了特征在这些模型的各层中可能高度局部化以及在上层中可能会丢失。

Oct, 2022

自然语言任务上结合压缩的乘法尺度缩放

本研究在六个 BERT 架构和八个 GLUE 任务上探究了神经网络压缩方法中的量化、知识蒸馏和幅度修剪，发现量化和知识蒸馏提供了比修剪更大的好处，同时多种方法的组合具有协同减小模型大小的效果。

Aug, 2022

语言建模即压缩

通过压缩模型来解决预测问题和训练大型语言模型的相关研究，大型语言模型展现出强大的预测和压缩能力，此视角为规模定律、分词和上下文学习提供了新的观点，并且可以使用任何压缩器构建条件生成模型。

Sep, 2023

模型压缩与对抗鲁棒性的关系：当前证据综述

增加模型容量是增强深度学习网络对抗性鲁棒性的已知方法之一，而剪枝和量化等压缩技术则可以减小网络的大小同时保持准确性。本研究总结了现有证据并讨论了观察到的效果可能的解释。

Nov, 2023