公平感知的 Transformer 结构剪枝
本文研究了自然语言处理中的社会偏见问题,提出了一种基于注意力机制调节权重的方法,增加模型的公平性,并提高不同规模语言模型下的分类和生成任务的表现。
May, 2023
通过对注意力头的偏见分析框架,发现预训练语言模型中存在有偏头部,这有助于对模型公正性进行评估和指导有效减轻策略的开发。对 BERT 模型和 GPT 模型的性别和种族偏见进行了广泛的实验研究,进一步理解了预训练语言模型中的偏见行为。
Nov, 2023
研究了 Transformer 模型中的多头自注意力和编码器在神经机器翻译中的贡献和作用,提出了一种基于随机门和可微松弛 L0 正则化的新型剪枝方法,在不严重影响性能的情况下,成功删除了大部分注意头。
May, 2019
本文提出了一种可微的子集剪枝技术,通过学习每个头的重要性变量并对未剪枝的头数施加用户指定的硬约束,实现对多头注意力机制的剪枝;实验证明该技术可以实现精确控制稀疏度水平,并在自然语言推理和机器翻译方面的表现不亚于以往技术。
Aug, 2021
基于大型 Transformer 预训练语言模型(PLM)的研究已经改变了自然语言处理(NLP)领域,但这种性能提升伴随着复杂性的增加,以及模型规模的限制。本文通过对两个问题的实证研究探索了 BERT 和 DistilBERT 中性别偏见的神经机制和蒸馏过程对性别偏见的影响,发现无法确定特定的层次产生偏见,除少数特定情况外,每一个注意力头都均匀地编码偏见,而蒸馏模型则更均衡地产生偏见。
Jan, 2024
通过网络修剪的角度,研究了一种特征注入的注意头选择和操作策略,并在对话摘要中进行了案例研究,结果表明通过注意头操作注入指代关系信息可以提高对话摘要的性能。
Dec, 2023
该论文研究了注意力头在 Transformer 模型中的相对重要性,以帮助其在跨语言和多语言任务中的可解释性。通过大量实验,证明了在多语言 Transformer 模型中修剪注意力头可以在跨语言和多语言任务中提高模型性能,并且可以使用梯度对注意头进行排序和识别。
Aug, 2021
通过为大型语言模型提供具体角色,我们开发了一个自动生成角色的流程,使得大型语言模型能够表达多元化的观点,从而解决其存在的公平性问题。
Feb, 2024
利用大型语言模型(LLM)在各种下游应用中进行分类等工作至关重要,通过公平性可以确保包容性,基于种族、性别等因素实现平等代表和促进负责任的人工智能部署。本研究引入了一个框架来概述与各种公平性定义相一致的公平性规定,每个定义均由不同程度的抽象调控。我们通过在流程中将公平规则纳入,并使用 RAG 选择上下文演示来探索上下文学习的配置和过程。通过与不同 LLM 的实验比较,发现 GPT-4 在准确性和公平性方面的结果都优于其他模型。本研究是利用 LLMs 通过上下文学习实现预测任务公平性的早期尝试之一。
Feb, 2024
大型语言模型的进展展示了在各个应用领域的强大能力,包括心理健康分析。然而,现有的研究着重于预测性能,对公平性这一关键问题的探讨不足,给弱势人群带来了重大风险。我们通过针对八个不同的心理健康数据集,使用十种不同的提示方法,系统地评估了七个社会因素的偏见。结果表明,GPT-4 在性能和公平性方面实现了最佳的平衡,尽管在某些情况下仍落后于领域特定模型如 MentalRoBERTa。此外,我们针对公平性进行调整的提示方法可以有效减轻在心理健康预测中的偏见,凸显了在该领域进行公平分析的巨大潜力。
Jun, 2024