語言模型在有害言論檢測中表現出性別流?言論偏見
通过使用我们的新评估框架 QueerBench,本文评估了英语大语言模型(LLMs)生成的句子完成对 LGBTQIA + 个体可能造成的潜在危害,并表明大型语言模型在对 LGBTQIA + 社群中的个体表现出更频繁的歧视行为,使得 QueerBench 有害性得分在 7.2% 的差距内增加。
Jun, 2024
该研究使用真实数据集,通过数据分析和机器学习模型,有效检测在线讨论中有害的 LGBTQIA + 相关言论,证实大型语言模型在此任务中具有良好性能。
Jun, 2022
LLMs 生成的文本存在社会偏见,本文通过情感分数打分分析,证明了 LLMs 生成文本存在性少数群体偏见,并展示了一种基于 SHAP 分析的启发式方法来减轻性少数群体偏见的方法
Jun, 2023
本文通过设计一种新的方法来检测和衡量基于文本的模型所涉及的潜在危害的严重性,并将该方法应用于 Twitter 的英语边缘滥用模型,以检测和测量与过度惩罚边缘社区言论相关的问题,并通过增加附加真负面示例来减轻相关危害。
Oct, 2022
提出一种从网页规模数据集中识别和过滤有害文本的方法,使用预训练语言模型计算特定文档条件下研究员编写的触发词组的对数似然,并根据该结果识别和过滤数据集中的文档,证明在过滤后的数据集上训练的语言模型产生有害文本的倾向更低,性能与未过滤基线相比略有降低,最后探讨了此方法的推广前景及其对语言模型值域的对齐性方面的作用。
Aug, 2021
我们的研究通过关注同性恋恶言,填补了在线仇恨言论检测研究中的一个重要空白。通过利用先进的情感分析模型,尤其是 BERT,和传统的机器学习方法,我们开发出了一个细致入微的方法来识别 X/Twitter 上的同性恋恶言内容。这项研究具有重要意义,因为同性恋恶言在检测模型中一直存在较低的代表性。我们的发现表明,虽然 BERT 优于传统方法,但验证技术的选择会影响模型的性能。这凸显了在检测微妙仇恨言论时上下文理解的重要性。通过发布我们所了解到的关于同性恋恶言检测的最大开源标记英文数据集,分析各种模型的性能和我们最强的基于 BERT 的模型,我们旨在提高在线安全性和包容性。未来的工作将扩展到更广泛的 LGBTQIA + 仇恨言论检测,解决多样性数据集来源的挑战。通过这一努力,我们为打击在线仇恨言论作出贡献,倡导更包容的数字景观。我们的研究不仅为改进先前研究结果提供了有关有效检测同性恋恶言内容的见解,而且为未来仇恨言论分析的进一步发展奠定了基础。
May, 2024
本文描述了我们开发的社交媒体评论中恐同 / 恐跨基不算法的系统,该系统是 LT-EDI-2024 共享任务的一部分。我们采用了基于 transformer 的方法,为十种语言条件(英语、西班牙语、古吉拉特语、印地语、卡纳达语、马拉雅拉姆语、马拉地语、泰米尔语、土鲁语和泰卢固语)开发了多类别分类模型。我们在领域适应期间引入了合成和有机脚本切换语言数据的实例,以反映社交媒体语言中标记训练数据中所看到的语言现实。我们系统在古吉拉特语和泰卢固语中排名第二,其他语言条件的表现有所不同。结果表明,加入脚本切换等凌语言行为元素可以提高语言检测系统的性能,尤其是在资源匮乏的语言条件下。
Jan, 2024
由于文本分类器开发中的偏见关联限制了公平性和准确性,因此我们调查了最近介绍的去偏置方法,作用于检测有毒语言的文本分类数据集和模型,重点关注词汇(例如骂人话、侮辱性言论、身份称谓)和方言标记(特别是非裔美国英语)。我们的全面实验表明,现有的方法在防止当前毒性检测器中出现有偏见的行为方面存在局限性。然后,我们提出了一种自动的方言感知数据校正方法作为概念验证。尽管采用了合成标签,但该方法减少了方言与毒性之间的关联。总的来说,我们的发现表明,在训练有毒性偏见性数据的模型时去偏置并不如简单重标记数据以消除现有偏见有效。
Jan, 2021
本文探究大型语言模型(LLMs)(如 BERT)中是否存在反对酷儿和跨性别者的偏见,并提出一种通过对酷儿社区撰写或关于酷儿社区的数据对模型进行微调以减少这些偏差的方法。通过引入新的基准数据集 WinoQueer,我们发现 BERT 存在明显的反同性恋偏见,但是通过在 LGBTQ + 成员编写的自然语言语料库上进行微调,这种偏见可以得到大部分缓解。
Jun, 2022