- 视觉 Transformer 中的社会偏见的多维分析
图像模型的嵌入空间已经被证明可以编码一系列的社会偏见,该研究调查了对于视觉转换器(ViT)中出现这些偏见的具体因素,并测量了训练数据、模型架构和训练目标对 ViTs 学习表示中的社会偏见的影响。研究结果表明,基于反事实增强训练的扩散式图像编 - KoBBQ:韩国问答偏见基准
通过利用英文 BBQ 数据集以适应文化方式构建非英文偏见基准数据集,本文提出了 KoBBQ 数据集用于评估韩语问答任务中的偏见,并通过将韩国文化相关性增强到韩国文化,补充了四个韩国文化特定偏见类别,并基于韩国文学创建了新样本。使用 KoBB - ACL通过两阶段方法缓解社会偏见:Prompt Tuning 推进而 Contrastive Learning 靠近
本文提出了一种通过对抗训练启发的两阶段去偏差模型 CCPA,结合对比学习和持续提示增强的数据增强方法来缓解 PLMs 编码中的社会偏见,并通过实验证明其在去偏差性能方面超过了基线模型。
- ACL酷儿人是人,首先是人:解构大型语言模型中的性取向刻板印象
LLMs 生成的文本存在社会偏见,本文通过情感分数打分分析,证明了 LLMs 生成文本存在性少数群体偏见,并展示了一种基于 SHAP 分析的启发式方法来减轻性少数群体偏见的方法
- 采用以人为本的 AI 方法实现公平公正可解释 AI
本文探讨了机器学习中公平性、可解释性、人本主义、社会偏差等问题,并提出了一种以人为本的人工智能方法,以增强分类系统和单词嵌入的可解释性和公平性,通过 D-BIAS 等可视化工具识别和缓解社会偏见。
- 通过大规模语言模型揭示网络社区中的偏见
本文利用自然语言生成中存在的偏见漏洞,探索了六个不同在线社区的偏见。通过对 GPT-Neo 1.3B 进行精细调整,该文评估了生成模型的偏见,并通过不同的人口属性来比较情感和毒性价值,从而揭示了各种模型的偏见类型和强度的差异。此外,本文所生 - ACLKoSBI:减少社会偏见风险的数据集,以更安全的大型语言模型应用为目标
通过构建本土化社会偏见数据集,可以减少韩国大型语言模型的社会偏见,有效地保证其安全、可靠、有效地部署。
- ACL人口属性和标记长度对名字偏见的影响:尼谢尔和南希
这篇论文通过使用名字替代实验,探讨社会常识推理模型在种族、民族和性别等维度上表现出社会偏见的趋势,并发现名字的人口统计属性和标记长度等因素可能影响模型行为。
- 文本转 SQL 中的社会偏见揭示与分类
本研究旨在揭示 Text-to-SQL 模型中的社会偏见,通过建立测试基准和展示如何利用我们的方法来揭示并评估下游 Text-to-SQL 任务中的社会偏见。
- ACL语言建模中公平与隐私之间的权衡
本研究探讨在训练文本生成模型时如何同时兼顾隐私保护和去除社交偏见的问题,经实验证明,保护隐私的同时也会使分类任务中的偏见加剧,为了在双方兼顾的情况下提高模型的效用,在损失一些隐私保护的基础上,通过去偏增强模型可以达到最优化。
- 语言模型中的语言无关偏见检测
本研究提出了一种名为 LABDet 的鲁棒的、语言无关的方法,用于评估 PLMs 中的社会偏见,且通过实验证明 LABDet 能展现国籍偏见,我们在六种语言上使用该方法,并验证了其可靠性和适用性。
- 调节注意力以实现公平:我们应该更多还是更少地参加?
本文研究了自然语言处理中的社会偏见问题,提出了一种基于注意力机制调节权重的方法,增加模型的公平性,并提高不同规模语言模型下的分类和生成任务的表现。
- ACLCHBias:中文对话语言模型的偏见评估与缓解
本文介绍了一个新的中文数据集 CHBias,用于对中文会话语言模型进行偏见评估和缓解。试验结果表明,使用该数据集的去偏执方法可以减少生成具有社会偏见的文本,同时保持模型的对话功能。
- ACL受盾形表示:通过迭代梯度投影保护敏感属性
本文通过引入一种新的方法 IGBP,提出了一种在自然语言处理模型中去除非线性编码概念的方案,实验结果表明,该方法可以有效缓解社会偏见,并对下游任务的准确性没有太大的影响。
- 构建面向掩蔽语言模型社会偏见的整体度量
本文利用高斯分布提出了 KLDivS 和 JSDivS 两种新的评估社会偏见的度量方法,并在公共数据集 StereoSet 和 CrowS-Pairs 上进行了实验,结果表明 KLDivS 和 JSDivS 比过去提出的度量方法更稳定和可解 - 在有偏差的情况下最大化子模函数进行推荐
本研究提出一种算法用于在考虑限制因素的情况下,最大化一类亚模模函数。算法能够保证在该模函数家族下,输出子集的效用最优,并均衡代表每个子集组。
- 通过文本生成图像透视社交偏见
本文通过对两个流行的 T2I 模型(DALLE-v2 和 Stable Diffusion)进行广泛的自动化和人工评估实验,专注于反映出的性别、年龄、种族和地理位置之间的职业,人格特征和日常情况的生成图像,研究和量化常见的社会偏见。我们的研 - ACL逻辑抗偏见:文字推断缓解刻板句子推理
本文中,我们描述了几种针对不同社区的刻板印象,这些社区存在于受欢迎的句子表示模型(包括预训练的下个句子预测和对比句子表示模型)中。通过比较基于文本相似性的强预训练模型与学习语言逻辑的文本蕴涵模型,我们得出结论:与显式去偏见流程相比,使用文本 - ACL比较内在性别偏见评估方法,无需使用人工标注示例
本文提出了一种对先前提出的内在性别偏见评估方法进行比较的方法,该方法不需要使用人工注释样例,而是通过使用自动挖掘的语料库中的男女性句子来创建多个偏置控制的 PLMs,并使用每个 PLM 评估内在性别偏见评估措施。实验表明,所提出的方法计算的 - 印度语言技术公正研究的文化再情境化
本文提出了一个完整的研究议程以便在印度社会背景下重新定义 NLP 公平性研究,同时考虑印度文化价值,缩小技术和资源方面的差异,并总结了一个关于印度社会不平等各个方面存在的社会偏见的实证研究,表明它们在语料库和模型中的普遍存在。