QueerBench：度量语言模型对酷儿身份的歧视

Jun, 2024

QueerBench：度量语言模型对酷儿身份的歧视

QueerBench: Quantifying Discrimination in Language Models Toward Queer Identities

Mae Sosto, Alberto Barrón-Cedeño

TL;DR通过使用我们的新评估框架QueerBench，本文评估了英语大语言模型（LLMs）生成的句子完成对LGBTQIA+个体可能造成的潜在危害，并表明大型语言模型在对LGBTQIA+社群中的个体表现出更频繁的歧视行为，使得QueerBench有害性得分在7.2%的差距内增加。

Abstract

With the increasing role of natural language processing (NLP) in various applications, challenges concerning bias and stereotype perpetuation

发现论文，激发创造

基于预训练语言模型检测社交媒体评论中的恐同和恐Trans现象

本文介绍了我们基于转换器模型的LT-EDI共享任务中用于检测社交媒体评论中的恐同和仇视跨性别内容的系统，使用mBERT等模型，并通过数据增强技术处理类别不平衡问题，代码已开源。在英语、泰米尔语和泰米尔语-英语子任务中，我们的排名分别为9、6、3，宏平均F1得分为0.42、0.64和0.58。

Mar, 2022

朝 WinoQueer 迈进：开发基于大型语言模型的反同性恋偏见基准

本文探究大型语言模型（LLMs）（如BERT）中是否存在反对酷儿和跨性别者的偏见，并提出一种通过对酷儿社区撰写或关于酷儿社区的数据对模型进行微调以减少这些偏差的方法。通过引入新的基准数据集WinoQueer，我们发现BERT存在明显的反同性恋偏见，但是通过在LGBTQ+成员编写的自然语言语料库上进行微调，这种偏见可以得到大部分缓解。

Jun, 2022

针对LGBTQIA+个体的有害在线对话内容检测

该研究使用真实数据集，通过数据分析和机器学习模型，有效检测在线讨论中有害的LGBTQIA+相关言论，证实大型语言模型在此任务中具有良好性能。

Jun, 2022

WinoQueer：针对大型语言模型中反LGBTQ+偏见的社区参与基准测试

WinoQueer是一个针对衡量大型语言模型是否存在有害LGBTQ+社区的偏见的基准，该论文通过社区调查来确定偏见审核基准。基准测试了多个热门LLM模型，发现开箱即用的模型通常存在相当大的反同偏见。最后，我们展示了LLM对边缘化社区的偏见可以通过微调社区成员编写的数据来得到缓解，而社交媒体文本比非成员编写的新闻文本更有效。

Jun, 2023

酷儿人是人，首先是人：解构大型语言模型中的性取向刻板印象

LLMs 生成的文本存在社会偏见，本文通过情感分数打分分析，证明了 LLMs 生成文本存在性少数群体偏见，并展示了一种基于 SHAP 分析的启发式方法来减轻性少数群体偏见的方法

Jun, 2023

使用印度語LGBTI+詞彙檢視大型語言模型的評估

该论文提出了一种使用印度语LGBTI+词汇表评估大型语言模型的方法，通过四个步骤：确定与期望行为相关的自然语言处理任务，创建用于测试语言模型的提示，使用语言模型获得输出，并进行手动评估。通过定性分析，我们发现我们实验的三个语言模型无法检测到潜在的仇恨内容，并且在使用机器翻译评估非英语语言的自然语言理解方面存在局限性。该论文提出的方法对其他语言的LGBTI+词汇表以及其他领域专用词表都有用处。这篇论文的研究工作为大型语言模型的负责任行为开辟了道路，如在LGBTI+社区的普遍社会认知背景下所示。

Oct, 2023

自由放任的危害：生成式语言模型中的算法偏差

通过开放式提示，我们发现模型产生的文本在描绘边缘群体的身份时存在错误、隐含和刻板印象的问题，这些问题可能导致心理伤害和认知能力下降。

Apr, 2024

在线仇恨言论检测的差距弥合: X/Twitter 上对同性恋内容的 BERT 与传统模型的比较分析

我们的研究通过关注同性恋恶言，填补了在线仇恨言论检测研究中的一个重要空白。通过利用先进的情感分析模型，尤其是BERT，和传统的机器学习方法，我们开发出了一个细致入微的方法来识别X/Twitter上的同性恋恶言内容。这项研究具有重要意义，因为同性恋恶言在检测模型中一直存在较低的代表性。我们的发现表明，虽然BERT优于传统方法，但验证技术的选择会影响模型的性能。这凸显了在检测微妙仇恨言论时上下文理解的重要性。通过发布我们所了解到的关于同性恋恶言检测的最大开源标记英文数据集，分析各种模型的性能和我们最强的基于BERT的模型，我们旨在提高在线安全性和包容性。未来的工作将扩展到更广泛的LGBTQIA+仇恨言论检测，解决多样性数据集来源的挑战。通过这一努力，我们为打击在线仇恨言论作出贡献，倡导更包容的数字景观。我们的研究不仅为改进先前研究结果提供了有关有效检测同性恋恶言内容的见解，而且为未来仇恨言论分析的进一步发展奠定了基础。

May, 2024

語言模型在有害言論檢測中表現出性別流?言論偏見

对社交媒体平台上的内容审查进行分析，研究其对性别多元化言语模式的偏见，并提出五个现成的语言模型在评估这些文本的伤害程度时的性能评估。

May, 2024

降低大语言模型中对酷儿表现的偏见：一种协作代理的方法

本研究解决了大语言模型输出中代词使用偏见的问题，尤其是针对酷儿个体的不当性别代词使用。我们提出了一种协作代理管道，通过分析和优化代词使用来提高包容性，实验结果显示该方法在包容性代词分类上显著优于GPT-4o，表明代理驱动框架在减少偏见和促进社会责任AI方面的潜力。

Nov, 2024