QueerBench:度量语言模型对酷儿身份的歧视
本文介绍了我们基于转换器模型的LT-EDI共享任务中用于检测社交媒体评论中的恐同和仇视跨性别内容的系统,使用mBERT等模型,并通过数据增强技术处理类别不平衡问题,代码已开源。在英语、泰米尔语和泰米尔语-英语子任务中,我们的排名分别为9、6、3,宏平均F1得分为0.42、0.64和0.58。
Mar, 2022
本文探究大型语言模型(LLMs)(如BERT)中是否存在反对酷儿和跨性别者的偏见,并提出一种通过对酷儿社区撰写或关于酷儿社区的数据对模型进行微调以减少这些偏差的方法。通过引入新的基准数据集WinoQueer,我们发现BERT存在明显的反同性恋偏见,但是通过在LGBTQ+成员编写的自然语言语料库上进行微调,这种偏见可以得到大部分缓解。
Jun, 2022
该研究使用真实数据集,通过数据分析和机器学习模型,有效检测在线讨论中有害的LGBTQIA+相关言论,证实大型语言模型在此任务中具有良好性能。
Jun, 2022
WinoQueer是一个针对衡量大型语言模型是否存在有害LGBTQ+社区的偏见的基准,该论文通过社区调查来确定偏见审核基准。基准测试了多个热门LLM模型,发现开箱即用的模型通常存在相当大的反同偏见。最后,我们展示了LLM对边缘化社区的偏见可以通过微调社区成员编写的数据来得到缓解,而社交媒体文本比非成员编写的新闻文本更有效。
Jun, 2023
LLMs 生成的文本存在社会偏见,本文通过情感分数打分分析,证明了 LLMs 生成文本存在性少数群体偏见,并展示了一种基于 SHAP 分析的启发式方法来减轻性少数群体偏见的方法
Jun, 2023
该论文提出了一种使用印度语LGBTI+词汇表评估大型语言模型的方法,通过四个步骤:确定与期望行为相关的自然语言处理任务,创建用于测试语言模型的提示,使用语言模型获得输出,并进行手动评估。通过定性分析,我们发现我们实验的三个语言模型无法检测到潜在的仇恨内容,并且在使用机器翻译评估非英语语言的自然语言理解方面存在局限性。该论文提出的方法对其他语言的LGBTI+词汇表以及其他领域专用词表都有用处。这篇论文的研究工作为大型语言模型的负责任行为开辟了道路,如在LGBTI+社区的普遍社会认知背景下所示。
Oct, 2023
我们的研究通过关注同性恋恶言,填补了在线仇恨言论检测研究中的一个重要空白。通过利用先进的情感分析模型,尤其是BERT,和传统的机器学习方法,我们开发出了一个细致入微的方法来识别X/Twitter上的同性恋恶言内容。这项研究具有重要意义,因为同性恋恶言在检测模型中一直存在较低的代表性。我们的发现表明,虽然BERT优于传统方法,但验证技术的选择会影响模型的性能。这凸显了在检测微妙仇恨言论时上下文理解的重要性。通过发布我们所了解到的关于同性恋恶言检测的最大开源标记英文数据集,分析各种模型的性能和我们最强的基于BERT的模型,我们旨在提高在线安全性和包容性。未来的工作将扩展到更广泛的LGBTQIA+仇恨言论检测,解决多样性数据集来源的挑战。通过这一努力,我们为打击在线仇恨言论作出贡献,倡导更包容的数字景观。我们的研究不仅为改进先前研究结果提供了有关有效检测同性恋恶言内容的见解,而且为未来仇恨言论分析的进一步发展奠定了基础。
May, 2024
本研究解决了大语言模型输出中代词使用偏见的问题,尤其是针对酷儿个体的不当性别代词使用。我们提出了一种协作代理管道,通过分析和优化代词使用来提高包容性,实验结果显示该方法在包容性代词分类上显著优于GPT-4o,表明代理驱动框架在减少偏见和促进社会责任AI方面的潜力。
Nov, 2024