公平蒸馏：缓解语言模型的刻板印象

KDDJul, 2022

公平蒸馏：缓解语言模型的刻板印象

FairDistillation: Mitigating Stereotyping in Language Models

Pieter Delobelle, Bettina Berendt

TL;DR本研究提出了 FairDistillation 方法，使用知识蒸馏构建较小的跨语言语言模型，控制特定偏见，成功缓解刻板印象和代表性危害。FairDistillation 方法可以以较低的成本创建更公平的语言模型。

Abstract

Large pre-trained language models are successfully being used in a variety of tasks, across many languages. With this ever-increasing usage, the risk of harmful side effects also rises, for example by reproducing

pre-trained language models harmful side effects stereotypes fairdistillation bias mitigation

发现论文，激发创造

通过反事实角色反转缓解精简语言模型中的性别偏见

本文介绍了一种基于对抗模型的知识蒸馏方法，用于减少语言模型中存在的性别差异，并通过实验证明了其有效性。

Mar, 2022

探索并缓解语言模型中的社会偏见

为了提高语言模型的公正性，本文提出了多项定义并给出了新的测试和度量方式，旨在减少机器学习在文本生成过程中对性别、种族、语言宗教等社会构建的刻板印象所带来的负面影响。实证结果和人工评估表明，该方法能够在文本生成中减少偏见同时保留重要的上下文信息。

Jun, 2021

探索多语言文本数据蒸馏

通过使用基于语言模型的学习方法，我们在多语言文本分类数据集上提出了几种数据蒸馏技术，来增强文本数据蒸馏领域中的跨体系结构泛化能力，并分析了它们在分类强度和跨体系结构泛化方面的性能，也研究了这些方法生成的数据摘要的语言特定公平性。

Aug, 2023

MergeDistill: 使用蒸馏方法合并预训练语言模型

本文提出了 MergeDistill 框架，通过知识蒸馏的方式合并预先训练的多语言模型，旨在快速训练出性能与甚至优于数量级更大的模型，同时强调教师模型的选择对学生模型性能的影响。

Jun, 2021

测试预训练语言模型中的刻板印象

本文研究语言模型中的偏见问题，提出了一种测试内部陈规陈瘤表现的简单方法，并探讨了该方法在性别偏见方面的应用。实验表明，使用无关的知识时，预训练的语言模型表现出一定的鲁棒性，并倾向于选择词语位置和句法结构等浅层语言线索来改变内部陈规陈瘤表现，从而为微调和评估中如何中性地处理语言模型提供了新的思路。

Jan, 2023

通过多任务学习解开方言与社会偏见以提高公平性

方言、自然语言处理方法、偏见语言、公平性和多任务学习的关键字；使用多任务学习可以提高公平性，并更可靠地检测偏见语言的特性。

Jun, 2024

自我蒸馏：填补语言模型微调中的分布差距

使用自我蒸馏微调（SDFT）方法，本研究通过引入由模型自身生成的蒸馏数据集来填补任务数据集与大型语言模型之间的分布差距，解决了在特定任务上微调时性能和通用指令跟随能力之间的挑战，并在多个基准测试中证明了 SDFT 方法在减轻灾难性遗忘的同时，在下游任务上实现了与传统微调相当或更优的性能，并且还展示了 SDFT 方法在保持 LLMs 的实用性和安全性之间的潜力。

Feb, 2024

蒸馏逐步！用更少的训练数据和更小的模型尺寸胜过更大的语言模型

本文介绍一种名为 “Distilling step-by-step” 的新机制，该机制通过在多任务训练框架内提取 LLM rationales 作为小型模型的附加监督来训练比 LLM 更小且表现更好的模型，并且使用远少于 finetuning 或 distillation 所需的标注数据。作者研究表明，相对于 finetuning 和 distillation，本机制使用更少的标注 / 非标注训练样例实现更好的性能；并且相对于 LLMs，使用明显更小的模型尺寸实现更好的性能；作者使用了 only 80% of available data on a benchmark task，就可以使用 770M T5 模型胜过 540B PaLM。

May, 2023

利用原型表示消除社会偏见而不包含人口统计信息

DAFair 是一种用于减轻语言模型中社会偏见的新方法，通过预定义的典型人口统计文本，并在微调过程中加入正则化项来纠正模型的表示中的偏见，从而在两个任务和两个模型上实证结果显示了我们方法的有效性。此外，即使在有限的人口统计注释数据下，我们的方法也优于常见的去偏方法。

Mar, 2024

如何实现平衡高效的多语言模型：既保护用户数据，又保持模型性能

本文提出了一种基于教师 - 学生知识蒸馏的新型多语种训练技术，利用平衡（子采样）数据将单语教师模型的知识蒸馏到一个多语种学生中，可以提高自然语言处理系统中低资源语言的表现。

Oct, 2022