QueerBench:度量语言模型对酷儿身份的歧视
LLMs 生成的文本存在社会偏见,本文通过情感分数打分分析,证明了 LLMs 生成文本存在性少数群体偏见,并展示了一种基于 SHAP 分析的启发式方法来减轻性少数群体偏见的方法
Jun, 2023
本文探究大型语言模型(LLMs)(如 BERT)中是否存在反对酷儿和跨性别者的偏见,并提出一种通过对酷儿社区撰写或关于酷儿社区的数据对模型进行微调以减少这些偏差的方法。通过引入新的基准数据集 WinoQueer,我们发现 BERT 存在明显的反同性恋偏见,但是通过在 LGBTQ + 成员编写的自然语言语料库上进行微调,这种偏见可以得到大部分缓解。
Jun, 2022
WinoQueer 是一个针对衡量大型语言模型是否存在有害 LGBTQ + 社区的偏见的基准,该论文通过社区调查来确定偏见审核基准。基准测试了多个热门 LLM 模型,发现开箱即用的模型通常存在相当大的反同偏见。最后,我们展示了 LLM 对边缘化社区的偏见可以通过微调社区成员编写的数据来得到缓解,而社交媒体文本比非成员编写的新闻文本更有效。
Jun, 2023
该论文提出了一种使用印度语 LGBTI + 词汇表评估大型语言模型的方法,通过四个步骤:确定与期望行为相关的自然语言处理任务,创建用于测试语言模型的提示,使用语言模型获得输出,并进行手动评估。通过定性分析,我们发现我们实验的三个语言模型无法检测到潜在的仇恨内容,并且在使用机器翻译评估非英语语言的自然语言理解方面存在局限性。该论文提出的方法对其他语言的 LGBTI + 词汇表以及其他领域专用词表都有用处。这篇论文的研究工作为大型语言模型的负责任行为开辟了道路,如在 LGBTI + 社区的普遍社会认知背景下所示。
Oct, 2023
在伦理和公平的领域中,现代大型语言模型 (Large Language Models,LLMs) 在破解很多最先进的基准测试中表现出色,该研究主要探讨 LLMs 在受保护群体偏见方面的行为,发现 LLMs 存在对性别、性取向和西方文化的偏见,并且模型不仅反映了社会偏见,而且似乎放大了这些偏见。尽管该模型对涉及受保护群体的问题过于谨慎,强调多样性和公平,但这种人工限制潜在有害输出的做法本身可能会造成伤害,应该谨慎和有控制地应用。
Mar, 2024
该研究使用真实数据集,通过数据分析和机器学习模型,有效检测在线讨论中有害的 LGBTQIA + 相关言论,证实大型语言模型在此任务中具有良好性能。
Jun, 2022
通过使用多种语言进行训练,大型语言模型(LLMs)通常具有多语言支持,并展示出在不同语言描述的任务中解决问题的显著能力。然而,由于在不同语言之间训练数据的不均衡分布,LLMs 可能表现出语言歧视,即面对相同任务但在不同语言中描述时,难以保持一致的响应。在本研究中,我们首先从安全性和质量两个方面探讨 LLMs 在对各种语言的查询产生的输出的一致性。我们使用两个数据集(AdvBench 和 NQ)对四个 LLMs(Llama2-13b、Gemma-7b、GPT-3.5-turbo 和 Gemini-pro)进行分析。结果显示,与孟加拉语、格鲁吉亚语、尼泊尔语和迈蒂利语的查询相比,LLMs 对英语、法语、俄语和西班牙语的查询表现出更强的人类对齐能力(平均有 1.04%的有害查询成功越狱)。此外,对于英语、丹麦语、捷克语和斯洛文尼亚语的查询,LLMs 倾向于产生具有更高质量的响应(平均 F1 得分为 0.1494),与其他语言相比。基于这些发现,我们提出了一种基于相似度的投票机制 LDFighter 来减轻 LLMs 中的语言歧视。LDFighter 确保为不同语言使用者提供一致的服务。我们使用良性查询和有害查询来评估 LDFighter。结果显示,LDFighter 不仅显著降低了成功越狱的概率,还平均改善了响应质量,证明了其有效性。
Apr, 2024
该研究通过评估六个主要的语言模型(BERT,RoBERTa,DistilBERT,BERT-multilingual,XLM-RoBERTa 和 DistilBERT-multilingual)并采用包含鼓励模型生成英语主题代词和要求模型返回与性别代词相关的动词、副词和形容词概率的提示来调查遮蔽语言模型中固有的偏见,尤其是性别偏见。分析结果显示所有模型存在性别刻板印象,而多语言变体的偏见相对较小。
Jan, 2024
本文描述了我们开发的社交媒体评论中恐同 / 恐跨基不算法的系统,该系统是 LT-EDI-2024 共享任务的一部分。我们采用了基于 transformer 的方法,为十种语言条件(英语、西班牙语、古吉拉特语、印地语、卡纳达语、马拉雅拉姆语、马拉地语、泰米尔语、土鲁语和泰卢固语)开发了多类别分类模型。我们在领域适应期间引入了合成和有机脚本切换语言数据的实例,以反映社交媒体语言中标记训练数据中所看到的语言现实。我们系统在古吉拉特语和泰卢固语中排名第二,其他语言条件的表现有所不同。结果表明,加入脚本切换等凌语言行为元素可以提高语言检测系统的性能,尤其是在资源匮乏的语言条件下。
Jan, 2024