朝 WinoQueer 迈进:开发基于大型语言模型的反同性恋偏见基准
WinoQueer 是一个针对衡量大型语言模型是否存在有害 LGBTQ + 社区的偏见的基准,该论文通过社区调查来确定偏见审核基准。基准测试了多个热门 LLM 模型,发现开箱即用的模型通常存在相当大的反同偏见。最后,我们展示了 LLM 对边缘化社区的偏见可以通过微调社区成员编写的数据来得到缓解,而社交媒体文本比非成员编写的新闻文本更有效。
Jun, 2023
通过使用我们的新评估框架 QueerBench,本文评估了英语大语言模型(LLMs)生成的句子完成对 LGBTQIA + 个体可能造成的潜在危害,并表明大型语言模型在对 LGBTQIA + 社群中的个体表现出更频繁的歧视行为,使得 QueerBench 有害性得分在 7.2% 的差距内增加。
Jun, 2024
LLMs 生成的文本存在社会偏见,本文通过情感分数打分分析,证明了 LLMs 生成文本存在性少数群体偏见,并展示了一种基于 SHAP 分析的启发式方法来减轻性少数群体偏见的方法
Jun, 2023
本文提出了两个直观的度量标准、skew 和 stereotype,来量化和分析上下文语言模型应对 WinoBias 代词消解任务时存在的性别偏见,并通过两种方法调查了如何减少偏见。第一个方法是在线方法,在牺牲刻板印象的代价下有效地消除偏斜。第二个方法是借鉴了 ELMo 的先前工作,并使用增强的性别平衡数据集微调 BERT,结果与无增强微调的 BERT 相比,降低了 skew 和 stereotype。但是,我们发现现有的性别偏见基准未完全探测到专业偏见,因为代词消解可能会被来自其他性别偏见表现的交叉相关性所混淆。
Jan, 2021
该论文研究了大型语言模型对社会性偏见的影响,特别是在韩语环境中,通过平衡数据分布和应用去偏的正则化方法,减少种族、性别以及种族偏见。
Mar, 2024
我们的研究通过关注同性恋恶言,填补了在线仇恨言论检测研究中的一个重要空白。通过利用先进的情感分析模型,尤其是 BERT,和传统的机器学习方法,我们开发出了一个细致入微的方法来识别 X/Twitter 上的同性恋恶言内容。这项研究具有重要意义,因为同性恋恶言在检测模型中一直存在较低的代表性。我们的发现表明,虽然 BERT 优于传统方法,但验证技术的选择会影响模型的性能。这凸显了在检测微妙仇恨言论时上下文理解的重要性。通过发布我们所了解到的关于同性恋恶言检测的最大开源标记英文数据集,分析各种模型的性能和我们最强的基于 BERT 的模型,我们旨在提高在线安全性和包容性。未来的工作将扩展到更广泛的 LGBTQIA + 仇恨言论检测,解决多样性数据集来源的挑战。通过这一努力,我们为打击在线仇恨言论作出贡献,倡导更包容的数字景观。我们的研究不仅为改进先前研究结果提供了有关有效检测同性恋恶言内容的见解,而且为未来仇恨言论分析的进一步发展奠定了基础。
May, 2024
该论文提出了一种使用印度语 LGBTI + 词汇表评估大型语言模型的方法,通过四个步骤:确定与期望行为相关的自然语言处理任务,创建用于测试语言模型的提示,使用语言模型获得输出,并进行手动评估。通过定性分析,我们发现我们实验的三个语言模型无法检测到潜在的仇恨内容,并且在使用机器翻译评估非英语语言的自然语言理解方面存在局限性。该论文提出的方法对其他语言的 LGBTI + 词汇表以及其他领域专用词表都有用处。这篇论文的研究工作为大型语言模型的负责任行为开辟了道路,如在 LGBTI + 社区的普遍社会认知背景下所示。
Oct, 2023
大型语言模型(LLMs)可以产生展现社交偏见并支持刻板印象的回答。然而,传统的基准测试无法充分评估 LLM 偏见,因为它无法扩展到大量的提示集,并且没有提供保证。因此,我们提出了一种新的认证框架 QuaCer-B(Bias 的定量认证),它提供了在大量提示集下从目标 LLMs 获取无偏回答的形式保证。证书包括从分布中采样的包含敏感属性的任何提示集获得有偏回答的概率的高置信度上限。我们通过在给定分布中随机令牌序列、手动越狱的混合和 LLM 嵌入空间中的越狱的提示上对 LLM 的偏见进行证明。我们使用 QuaCer-B 对流行的 LLMs 进行认证,并呈现关于其偏见的新见解。
May, 2024
本文介绍了综合偏差中性化框架(CBNF),该框架创新性地对大型语言模型(LLMs)中的偏见进行量化和减轻,通过引入称为 BiQ 的新指标来检测、度量和减轻 LLMs 中的种族偏见,而无需依赖人口统计注释。此外,论文还展示了 Latimer AI 对比 ChatGPT 3.5 的详细分析,揭示了 Latimer AI 通过有针对性培训和精细的偏见缓解策略,在检测种族、文化和性别偏见方面的效果。
Apr, 2024