针对 LGBTQIA + 个体的有害在线对话内容检测
通过使用我们的新评估框架 QueerBench,本文评估了英语大语言模型(LLMs)生成的句子完成对 LGBTQIA + 个体可能造成的潜在危害,并表明大型语言模型在对 LGBTQIA + 社群中的个体表现出更频繁的歧视行为,使得 QueerBench 有害性得分在 7.2% 的差距内增加。
Jun, 2024
本文主要基于八项伦理原则,即:隐私、问责、安全、可透明、公平和非歧视、技术的人类控制、专业责任、人权的促进,回顾了基于自然语言处理(NLP)的网络滥用内容检测的研究,并提出了权利尊重的社会技术解决方案来检测和对抗线上滥用。
Dec, 2020
本文介绍了一种使用多个标签注释恶意在线言论的方法,强调了注释应该是细致、准确的。作者发布了一个高质量的数据集,使用六个标签注释了超过 40,000 条有关移民的推文,在此数据集上训练模型的表现优于基准数据集。
Oct, 2022
我们的研究通过关注同性恋恶言,填补了在线仇恨言论检测研究中的一个重要空白。通过利用先进的情感分析模型,尤其是 BERT,和传统的机器学习方法,我们开发出了一个细致入微的方法来识别 X/Twitter 上的同性恋恶言内容。这项研究具有重要意义,因为同性恋恶言在检测模型中一直存在较低的代表性。我们的发现表明,虽然 BERT 优于传统方法,但验证技术的选择会影响模型的性能。这凸显了在检测微妙仇恨言论时上下文理解的重要性。通过发布我们所了解到的关于同性恋恶言检测的最大开源标记英文数据集,分析各种模型的性能和我们最强的基于 BERT 的模型,我们旨在提高在线安全性和包容性。未来的工作将扩展到更广泛的 LGBTQIA + 仇恨言论检测,解决多样性数据集来源的挑战。通过这一努力,我们为打击在线仇恨言论作出贡献,倡导更包容的数字景观。我们的研究不仅为改进先前研究结果提供了有关有效检测同性恋恶言内容的见解,而且为未来仇恨言论分析的进一步发展奠定了基础。
May, 2024
使用 BERT 模型,通过对权重损失的加权处理,检测有毒评论并减少对包括种族、性别、宗教在内的身份特征的意外偏见。与传统的逻辑回归模型相比,经过微调的 BERT 模型在分类和偏见减少方面表现得更好,具有 89% 的准确率。
Nov, 2023
检测系统发现,社会文化因素对仇恨言论的发展产生影响。采用开源训练数据在不同的英语国别社交媒体上监测反 LGBTQ + 内容的合适性进行了调查,结果显示开源仇恨言论数据集的社会和文化一致性影响了预测结果。此外,开源训练数据中针对反 LGBTQ + 辱骂的关键字搜索方法会导致模型过度拟合,从而可能未能检测到反 LGBTQ + 内容。我们建议结合经验输出和定性洞察,以确保这些系统具有合适的功能。
Jul, 2024
研究了在 Dravidian 语言中检测社交媒体评论中的 LGBT-phobia 内容,并应用卷积神经网络、LSTM、BERT 等深度学习模型进行分类。结果表明 IndicBERT 模型在 Malayalam 和 Tamil 语言中的加权平均 F1-score 分别为 0.86 和 0.77,具有更高的分类性能。
Apr, 2023
本文描述了我们开发的社交媒体评论中恐同 / 恐跨基不算法的系统,该系统是 LT-EDI-2024 共享任务的一部分。我们采用了基于 transformer 的方法,为十种语言条件(英语、西班牙语、古吉拉特语、印地语、卡纳达语、马拉雅拉姆语、马拉地语、泰米尔语、土鲁语和泰卢固语)开发了多类别分类模型。我们在领域适应期间引入了合成和有机脚本切换语言数据的实例,以反映社交媒体语言中标记训练数据中所看到的语言现实。我们系统在古吉拉特语和泰卢固语中排名第二,其他语言条件的表现有所不同。结果表明,加入脚本切换等凌语言行为元素可以提高语言检测系统的性能,尤其是在资源匮乏的语言条件下。
Jan, 2024
本文通过设计一种新的方法来检测和衡量基于文本的模型所涉及的潜在危害的严重性,并将该方法应用于 Twitter 的英语边缘滥用模型,以检测和测量与过度惩罚边缘社区言论相关的问题,并通过增加附加真负面示例来减轻相关危害。
Oct, 2022