模型压缩能提高自然语言处理的公平性吗
本研究分析了两种流行的模型压缩技术对于预训练语言模型鲁棒性和泛化能力的影响,并且在样本不确定性的基础上提出了一种偏见缓解框架,用于提高模型的泛化能力。
Oct, 2021
大型语言模型通过自我监督在大规模网络文本上进行训练,模型对文本的社会偏见进行了合适的拟合。尽管需要介入以减轻预训练过程中学到的不适当的社会偏见对模型预测结果的影响,但在这两个方法之间的相互作用方面,目前的研究工作还不充分。本研究对量化和知识蒸馏的模型压缩方法在语言模型的社会偏见衡量方面进行了仔细的对比研究,结果表明,较长的预训练时间和较大的模型会导致更高的社会偏见,而量化方法在约为原始预训练时间的 20% 处展现了最佳的折衷效果。
Dec, 2023
本研究在六个 BERT 架构和八个 GLUE 任务上探究了神经网络压缩方法中的量化、知识蒸馏和幅度修剪,发现量化和知识蒸馏提供了比修剪更大的好处,同时多种方法的组合具有协同减小模型大小的效果。
Aug, 2022
压缩技术对小规模数据语言模型的效率和效果具有显著改善作用,证实了对大规模参数化模型的压缩效果的普遍观点同样适用于小规模数据模型。
Apr, 2024
通过研究注意力头对大型语言模型的公平性和性能的影响,提出一种修剪注意力头的全新方法,能减少性别偏见约 19%至 39.5%,而性能仅稍微下降。
Dec, 2023
语言模型如 mBERT、XLM-R 和 BLOOM 旨在实现多语言泛化或压缩,以便在大量(可能是未知的)语言中实现转移。然而,这些模型理想情况下还应该是私有的、语言公平的和透明的,通过将它们的预测与训练数据关联起来。我们展示多语言压缩和语言公平能够与差分隐私兼容,但差分隐私与训练数据影响稀疏性存在矛盾,这是透明度的目标。我们在两个常见的 NLP 任务上进行了一系列实验,并在不同的隐私保证下评估多语言压缩和训练数据影响稀疏性,更详细地探讨了这些权衡。我们的结果表明,我们需要开发一种共同优化这些目标的方法,以找到实际的权衡。
Aug, 2023
本研究使用了 Transformer-based 模型(如 BERT、GPT 和 T5),并进行了知识蒸馏来进行模型压缩,特别关注 TinyBERT 学生模型。通过实验不同的损失函数、Transformer 层映射方法和注意力和表示损失的权重调整,评估了提出的方法在 GLUE 基准测试的若干下游任务上的效果,旨在提高知识蒸馏技术的效率和准确性,为各种自然语言处理任务的开发提供更高效和准确的模型。
Aug, 2023
通过压缩模型来解决预测问题和训练大型语言模型的相关研究,大型语言模型展现出强大的预测和压缩能力,此视角为规模定律、分词和上下文学习提供了新的观点,并且可以使用任何压缩器构建条件生成模型。
Sep, 2023