模型压缩能提高自然语言处理的公平性吗

Jan, 2022

模型压缩能提高自然语言处理的公平性吗

Can Model Compression Improve NLP Fairness

Guangxuan Xu, Qingyuan Hu

TL;DR本文首次研究了模型压缩技术对生成性语言模型的毒性和偏见的影响，我们在 GPT2 模型上测试了知识蒸馏和剪枝方法，发现模型蒸馏后有毒性和偏见的减少，这个结果可以被解释为模型压缩的正则化技术，我们的工作不仅可以作为压缩模型安全部署的参考，而且将 “压缩作为正则化” 的讨论扩展到了神经语言模型领域，并暗示了使用压缩来开发更加公平的模型的可能性。

Abstract

model compression techniques are receiving increasing attention; however, the effect of compression on model fairness is still under explored. This is the first paper to examine the effect of →

model compression fairness distillation pruning generative language models

发现论文，激发创造

自然语言理解中模型蒸馏和剪枝的稳健性挑战

本研究分析了两种流行的模型压缩技术对于预训练语言模型鲁棒性和泛化能力的影响，并且在样本不确定性的基础上提出了一种偏见缓解框架，用于提高模型的泛化能力。

Oct, 2021

大型语言模型中模型压缩对社会偏见的影响理解

大型语言模型通过自我监督在大规模网络文本上进行训练，模型对文本的社会偏见进行了合适的拟合。尽管需要介入以减轻预训练过程中学到的不适当的社会偏见对模型预测结果的影响，但在这两个方法之间的相互作用方面，目前的研究工作还不充分。本研究对量化和知识蒸馏的模型压缩方法在语言模型的社会偏见衡量方面进行了仔细的对比研究，结果表明，较长的预训练时间和较大的模型会导致更高的社会偏见，而量化方法在约为原始预训练时间的 20% 处展现了最佳的折衷效果。

Dec, 2023

自然语言任务上结合压缩的乘法尺度缩放

本研究在六个 BERT 架构和八个 GLUE 任务上探究了神经网络压缩方法中的量化、知识蒸馏和幅度修剪，发现量化和知识蒸馏提供了比修剪更大的好处，同时多种方法的组合具有协同减小模型大小的效果。

Aug, 2022

当小的更小时会发生什么？探究对小数据预训练语言模型进行压缩的影响

压缩技术对小规模数据语言模型的效率和效果具有显著改善作用，证实了对大规模参数化模型的压缩效果的普遍观点同样适用于小规模数据模型。

Apr, 2024

公平感知的 Transformer 结构剪枝

通过研究注意力头对大型语言模型的公平性和性能的影响，提出一种修剪注意力头的全新方法，能减少性别偏见约 19％至 39.5％，而性能仅稍微下降。

Dec, 2023

差分隐私、语言公平性和训练数据影响：多语言语言模型的不可能性和可能性定理

语言模型如 mBERT、XLM-R 和 BLOOM 旨在实现多语言泛化或压缩，以便在大量（可能是未知的）语言中实现转移。然而，这些模型理想情况下还应该是私有的、语言公平的和透明的，通过将它们的预测与训练数据关联起来。我们展示多语言压缩和语言公平能够与差分隐私兼容，但差分隐私与训练数据影响稀疏性存在矛盾，这是透明度的目标。我们在两个常见的 NLP 任务上进行了一系列实验，并在不同的隐私保证下评估多语言压缩和训练数据影响稀疏性，更详细地探讨了这些权衡。我们的结果表明，我们需要开发一种共同优化这些目标的方法，以找到实际的权衡。

Aug, 2023

压缩多语言机器翻译模型遗漏了什么？

本研究分析了压缩技术对多语言神经机器翻译模型性能的影响，发现压缩方法会导致低资源语言的性能显著下降，甚至会放大内在的性别和语义偏差。

May, 2022

BERT 模型的知识蒸馏改进：损失函数、映射方法和权重调整

本研究使用了 Transformer-based 模型（如 BERT、GPT 和 T5），并进行了知识蒸馏来进行模型压缩，特别关注 TinyBERT 学生模型。通过实验不同的损失函数、Transformer 层映射方法和注意力和表示损失的权重调整，评估了提出的方法在 GLUE 基准测试的若干下游任务上的效果，旨在提高知识蒸馏技术的效率和准确性，为各种自然语言处理任务的开发提供更高效和准确的模型。

Aug, 2023

通过反事实角色反转缓解精简语言模型中的性别偏见

本文介绍了一种基于对抗模型的知识蒸馏方法，用于减少语言模型中存在的性别差异，并通过实验证明了其有效性。

Mar, 2022

语言建模即压缩

通过压缩模型来解决预测问题和训练大型语言模型的相关研究，大型语言模型展现出强大的预测和压缩能力，此视角为规模定律、分词和上下文学习提供了新的观点，并且可以使用任何压缩器构建条件生成模型。

Sep, 2023