- 关于言语自我监督模型的社会偏见
自监督学习(SSL)语音模型在各种任务中取得了显著的成果,然而其偏见及对边缘群体的影响引起了重要关注。本研究揭示了普遍的 SSL 模型无意间获取了有偏见的相关性,并探究了模型架构、大小以及训练方法等因素对社会偏见传播的影响。最后,通过压缩方 - FAIntbench:文本到图像模型中的偏见评估的全面且精确的基准测试
通过 FAIntbench 这一整体且精确的基准,在四个维度上评估了最近七个大规模的 T2I 模型的偏见以及其可见性、获取属性和保护属性,并对其进行了人工评估,证明了 FAIntbench 在识别各种偏见方面的有效性,还揭示了关于偏见的新研 - 设计合理思考:关于结构化提示对消除语言模型偏见的有效性的思考
通过系统评估多种 LLM 模型和不同提示策略的方法,我们展示出基于第二系统推理提示的复杂方法在减少偏见的平均输出中表现更好,对下游任务具有竞争性能,这为以最终用户为焦点的评估框架在 LLM 使用方面提供了研究方向和潜力。
- 转换荷兰语:去偏向非二元代词的荷兰语共指消解系统
研究探讨荷兰指代消解系统对中性代词(如 hen 和 die)的性能,比较了两种去偏见技术(CDA 和 delexicalisation)对非二元上下文的指代消解系统的影响,并引入了评估中性代词性能的新度量标准 —— 代词得分。结果显示相较于 - 教师 - 学生训练用于去偏:大型语言模型的一般排列去偏
本论文研究了使用蒸馏技术将计算密集的、被消除偏见的教师模型的功能提炼到更紧凑的学生模型中,通过两种学生模型的探索,一种基于纯蒸馏的模型,另一种基于纠错方法用于更复杂的任务,学生模型纠正教师模型的单个有偏决策以达到无偏结果,并证明较小、仅编码 - 在去偏语言表征模型中不伤害受保护群体
使用实际数据训练的语言表示模型可能会捕捉和加剧不希望的偏见,导致对不同人口群体的不公平待遇。我们探讨了四种去偏见技术在实际文本分类任务上的应用,并表明减少偏见是以降低所有人口群体性能为代价的,包括那些去偏见技术旨在保护的群体。我们主张去偏见 - DiFair: 评估性别知识和偏见的可分解基准
使用 DiFair 数据集作为基准,通过设计统一评估指标,研究了许多广泛使用的预训练语言模型和去偏技术,发现存在的性别偏见得到了证实,同时也证明了去偏技术虽然改善了性别偏见问题,但通常会降低模型的有用性别知识。
- EMNLP多语言模型中偏见的研究:解偏技术的跨语言转移
本文研究了多语言模型中去偏技术的可转移性。我们在英语、法语、德语和荷兰语中检验了这些技术的适用性。利用多语种 BERT(mBERT),我们证明了跨语言的去偏技术不仅可行,而且效果显著。令人惊讶的是,我们的发现表明,在应用这些技术于非英语语言 - ACL通过两阶段方法缓解社会偏见:Prompt Tuning 推进而 Contrastive Learning 靠近
本文提出了一种通过对抗训练启发的两阶段去偏差模型 CCPA,结合对比学习和持续提示增强的数据增强方法来缓解 PLMs 编码中的社会偏见,并通过实验证明其在去偏差性能方面超过了基线模型。
- 关于自然语言处理中的偏见和公平性:如何实现更公正的文本分类?
本文系统分析了 NLP 模型中的上游偏差、样本偏差和过度放大偏差导致的不公平性,探讨了使用不同去偏技术消除这些偏差对文本分类任务公正性的影响,并发现过度放大偏差是对文本分类公正性影响最大的偏差。而通过在收集不同身份群体平衡的数据集上进行 L - 去偏见技巧的有效性:本土定性分析
本文提供了对已预训练语言模型去偏见技术效果的土著观点。 现有技术主要针对美国种族偏见,无法有效捕捉其他国家(如新西兰的毛利人)中代表性不足的土著人群,需要结合本地知识和理解来确保算法的公正性,特别是解决资源受限的社会问题。
- AAAI通过基于熵的去偏差去噪声的方法进行去噪声:一种鲁棒的训练方法,用于具有嘈杂标签的数据集偏差
研究旨在提出一种名为 DENEB 的方法,通过 Gaussian Mixture Model 选择偏见对齐的数据,使用基于熵的采样概率来训练最终模型,此方法在多个基准测试上实现了更好的去偏置性能。
- ACL通过率失真最大化学习公平表示
本文提出了一种新的去偏方法 —— 公平感知率最大化(FaRM),该方法能通过使用率失真函数使属于同一个受保护属性类的实例的表示不相关,从而去除受保护的信息,其能够在有或没有目标任务的情况下去偏表示。经实验评估表明,FaRM 在多个数据集上实 - EMNLP可持续模块化去偏语言模型
本文通过提出使用专用去偏置适配器的可持续模块化去偏置方法 ADELE,解决当前使用预训练语言模型存在的去偏置方法计算代价高和可能导致遗忘的问题,在性别去偏置任务上展示了 ADELE 的有效性,并证明其模块化特性使其在大规模下游训练后仍能保持 - 自然语言推断中的性别偏见评估
本文提出了一种评估方法来测量天生的性别偏见,其通过构建一项挑战任务,通过将性别中性前提与性别具体假设进行配对的方式来进行。研究发现,许多先进的 NLI 模型在使用职业数据集进行训练时会因性别偏见而出现错误,但通过通过扩充训练数据集来确保性别 - MM消除词嵌入中的偏见改善多模式机器翻译
本研究探讨了预训练词嵌入及其在多模式神经机器翻译模型中的应用,引入两种去偏差技术,并在英德翻译和英法翻译两种语言对上获得了最多 + 1.93 BLEU 和 + 2.02 METEOR 的性能提升。
- ACL利用词嵌入技术消除神经机器翻译中的性别偏差
本文提出使用词向量以减少神经机器翻译中性别偏见的方法并应用于 Transformer 翻译结构中,通过评估在 WMT 英西标准测试上的结果,展示出一定的性能提高和在职业测试集上消除基线系统已存在的偏见。