- CVPR残疾视角:发现自动图像生成的偏见
通过综合实验,研究发现当前普遍的图像生成模型在描绘残障人士时存在明显的偏见,通常将他们描绘为年长、悲伤,并主要使用手动轮椅,因此迫切需要更具包容性的 AI 开发,确保生成的图像中残障人士能够得到多样化和准确的呈现,以解决和减轻 AI 模型中 - 能否控制暗示?对文本 - 图像生成模型的比较分析
通过综合分析基础提示、修饰词和顺序对 AI 文本生成模型进行的研究,揭示了稳定扩散、DALL-E 3 和 Adobe Firefly 等领先的文本到图像模型中社会偏见的微妙编码方式,从而推动了 AI 伦理学的发展并为控制偏见的未来研究提供了 - ConceptPrune: 通过技能神经元修剪在扩散模型中进行概念编辑
我们提出了一种简单而有效的无需训练的方法,ConceptPrune,通过首先确定在预训练模型中负责生成不良概念的关键区域,从而以权重修剪的方式便捷地实现概念去学习。实验证明,我们的方法能够高效擦除多个目标概念,仅修剪总权重的约 0.12%, - DispaRisk: 数据集中不平等风险的评估和解释
介绍 DispaRisk,这是一种新颖的框架,旨在在 ML 流程的初期阶段,主动评估数据集中差异的潜在风险。通过与公平研究中常用的数据集进行基准测试,我们发现 DispaRisk 能够识别具有高歧视风险、易受偏见影响的模型家族以及增加 ML - 评估大型语言模型中的政治偏见
我们从德国的角度评估了当前最流行的开源模型在欧洲联盟内涉及政治问题的偏见,发现较大的模型更倾向于与左翼政党相符,而较小的模型通常保持中立,这凸显了 LLM 的细微行为和语言对其政治立场的重要性。我们的发现强调了对 LLMs 进行严格评估和处 - GeniL:一个关于语言泛化的多语言数据集
通过构建多语言数据集 GeniL,我们介绍了检测语言中概括化的新任务,其对多样的上下文进行了可靠区分,从而有助于深入理解刻板印象的永久化,这是实现更包容、负责任的语言技术的关键一步。
- 公正的人类生成:公正检索增强
本研究介绍了一种名为公平检索增强生成(FairRAG)的新框架,该框架通过从外部图像数据库中检索的参考图像来改善人类生成中的公平性,并通过将参考图像投影到文本空间的轻量级线性模块来实现条件生成,以提高公平性。通过简单而有效的去偏策略,Fai - 大型语言模型中的受保护群体偏见与刻板印象
在伦理和公平的领域中,现代大型语言模型 (Large Language Models,LLMs) 在破解很多最先进的基准测试中表现出色,该研究主要探讨 LLMs 在受保护群体偏见方面的行为,发现 LLMs 存在对性别、性取向和西方文化的偏见 - COLING何时使用 “更多语境” 有助于辨别嘲讽?
通过整合多种上下文,本研究探索了现有方法在讽刺识别中的改进,并在三个讽刺识别基准测试中取得了最先进的性能,并展示了添加更多上下文的好处,同时也指出使用更多上下文可能引入社会偏见的固有缺点。
- 随机硅采样:基于群体级人口统计信息的大型语言模型模拟人类亚种群观点
通过使用基于人口分布的人口组别信息,我们研究了语言模型在生成与人群相符合的调查回复方面的可行性,并揭示了语言模型中的社会偏见对这类模拟的影响。
- 评估机器对土著身份的感知能力:ChatGPT 在多样情境中土著角色的分析
该研究调查了大型语言模型(LLMs)在模拟原住民扮演不同角色的场景时对原住民身份的自我感知偏差,通过生成和分析多个场景,揭示了技术对原住民相关社会偏见可能存在的感知和放大作用,该研究结果对批判性计算中原住民问题有广泛的影响。
- 大型语言模型中的内部知识偏差发现
通过引入一种全新的、纯粹基于提示的方法,本文揭示和分析大型语言模型中隐藏的社会偏见,为提高自然语言处理系统的透明度和促进公平性做出了贡献。
- 种姓主义但非种族主义?量化印度与西方大型语言模型偏见的差异
对大型语言模型的研究发现,它们往往存在社会偏见,尤其在印度和西方语境下,而引入一种称为 Instruction Prompting 的简单干预方法能够显著减少这种偏见。
- 大型语言模型中的性别偏见和刻板印象
通过对四个最近发表的大型语言模型进行测试,我们发现大型语言模型在性别刻板印象、职业偏见和句子结构等方面表现出偏见,它们更倾向于选择与性别刻板印象相关的职业,并且在提供自己选择的解释时常常存在事实错误,对于这些模型的偏见行为,我们需要谨慎测试 - 性别调整:强化预训练语言模型去偏见的微调
通过使用下游任务数据对预训练语言模型(PLMs)进行微调, Gender-tuning 方法能够消除 PLMs 中的性别偏见,同时提高 PLMs 在下游任务上的性能。
- CBBQ:一個由人工智能協作策劃的中文偏差測試數據集,供大型語言模型使用
本文提供一个超过 10 万个问题的中文偏见基准数据集,包括与中国文化和价值观相关的 14 个社会维度中的刻板印象和社会偏见,通过广泛文献综述、生成环境、AI 辅助去歧义生成、手动审核和重组等步骤,展示了数据集的广泛覆盖和高多样性,实验表明所 - 面向公平性的图神经网络消息传递
提出了一种新颖的公平感知消息传递框架 GMMD,该框架考虑了图平滑性和表示公平性,并且可以显著提高各种 GNN 模型的公平性,同时保持高精度。
- CVPRDeAR: 使用附加残差进行去偏见视觉语言模型
本文提出了一种新的去偏方法 DeAR,通过学习加性残差图像表示来抵消原始表示,确保公正输出表示,并引入了 PATA 数据集来更好地评估这种方法的公平性与保持零样本性能的有效性。
- ACL文本生成中的国籍偏见
这篇论文分析了语言模型中的国籍偏见,探讨了 GPT-2 生成的故事中如何突出现有的有关国籍的社会偏见,并使用敏感性分析探讨了互联网用户数量和国家经济状况对故事情绪的影响。同时还研究了对抗触发的去偏置方法,研究结果表明,GPT-2 在对互联网 - 针对印度语言表示的社交意识偏差测量
本篇论文探讨了语言表示法中出现的灌输的社会偏见,特别是针对印地语语言表示法中种姓和宗教相关的偏见。该研究展示了如何根据地区的历史和文化,将有着独特偏见的语言表示法区分开来,同时强调了当我们建模语言表示法时,必须关注文化和语言学因素以更好地理