- ACLAustroTox:用于基于目标的奥地利德语冒犯性语言检测的数据集
模型解释性在毒性检测中获益于对令牌级注释。我们介绍了一个从新闻论坛获取的用于侮辱语言检测的数据集,其特点是包含奥地利德语方言,包含 4562 个用户评论。除了二进制侮辱分类外,我们还确定了每个评论中构成粗俗语言或代表侮辱性陈述目标的部分。我 - ACL乌克兰毒性分类
通过在缺少资源的乌克兰语中,使用跨语言知识迁移技术,从英语语料库中翻译、使用关键词过滤有毒样本,并通过众包进行注释,填补了有关乌克兰语毒性分类语料库的差距,比较了 LLMs 诱导和其他跨语言迁移方法以及有无微调的鲁棒性和效率最高的基线模型。
- 有害藻类水华管理中的混合机器学习技术
用神经网络添加自适应加权模型(BAGNET)和辨别式最近邻分类(SVM-KNN)进行比较,以估计生产区域的状态,结果表明 BAGNET 模型在结果和鲁棒性方面都优于其他模型,平均召回率为 93.41%。
- MuTox:通用多语种基于音频的毒性数据集和零样本检测器
通过创造多语言音频数据集 MuTox,实现了跨多种语言的零射击毒性检测,相比现有的基于文本的训练分类器,MuTox 的 AUC 值提高了超过 1%,语言覆盖范围扩大了 10 倍以上,相比于基于词汇列表的分类器,MuTox 的精确度和召回率提 - 大型语言模型几何特征解决有害内容检测与生成
大型语言模型的几何视角下,从内在维度和可解释的样条特征的角度探索其内部表示,并证明这些理论结果可以回答实际问题,如毒性检测。
- (为什么) 我的提示越来越差?重新思考演进中的 LLM API 的回归测试
基于我们对毒性检测的案例研究,我们强调了对不断演化的 LLM API 进行回归测试的必要性,并重新审视了传统测试方法的基本变化需求,因为 LLM API 具有不同的正确性概念、易碎性和非确定性。
- ToxicChat: 揭示现实世界用户与 AI 对话中的隐含挑战
本研究介绍了 ToxicChat,这是一个基于开源聊天机器人的新型基准,用于揭示现实世界中用户与 AI 交互所面临的挑战,并对现有毒性数据集训练的模型进行了系统评估,揭示了其在此独特领域中的不足。该工作为进一步构建用户与 AI 交互的安全健 - 自然语言处理中毒性定义
这篇研究论文提出了基于量化压力的定义来解决毒性检测任务中固有的问题。
- ACL自动式歧视:情感分析模型和毒性分析模型中明显的残障偏见探究
我们分析情感分析和毒性检测模型,以检测针对残疾人群体的明显偏见。我们使用扰动敏感性分析的偏见识别框架来研究与残疾人有关的社交媒体平台,特别是 Twitter 和 Reddit 上的对话,以了解残疾偏见在现实社交环境中的传播方式。然后,我们创 - 边缘居中:基于异常值的毒性检测中受害群体识别
提出了基于数据异常值识别的 Group-Based Performance Disparity Index (GPDI) 方法来测量人工智能对边缘群体的影响,并发现对这些群体最有害的文本表现出比其他文本高达 86% 的毒性,而模型的性能差距 - 使用 BERT 的游戏内聊天毒性检测程序 ToxBuster
介绍了 ToxBuster ,一种简单且可扩展的模型,用于检测在线空间中的毒性。该模型使用彩虹六围攻和荣耀战荣耀的游戏聊天记录数据进行训练,并且对不同类型的毒性进行了仔细的注释。相较于现有技术,ToxBuster 在精确性和召回率上均表现出 - 临界视角:透视 API 中存在的陷阱的基准
本文讨论如何对互联网内容中的 “有害” 语言进行检测,重点介绍了来自 Jigsaw 的最新分数评估工具 PERSPECTIVE,以及我们提出的新基准 SASS,并探讨了 PERSPECTIVE 在 SASS 上表现不足的问题。本文的研究表明 - AAAI游戏中毒性语言检测:共享任务和注意残差
本文提出了一个针对游戏内毒性语言检测的模型 / 框架,解决了由于游戏内聊天过短导致毒性检测困难的问题,并介绍了该模型的建立过程及数据源。
- 哪种更有毒?来自 Jigsaw 对有毒评论的严重程度评估发现
本文比较评估了使用 transformers 和传统机器学习模型在 Jigsaw 最近发布的毒性严重度测量数据集上的表现,并通过可解释性分析展示了模型预测中的问题。
- 通过因果中介分析研究去偏置方法带来的影响
本文以因果中介分析的方法来研究消除语言模型偏见的内部机制对下游任务毒性检测的影响,结果表明需要测试不同的偏见度量方法和关注模型中特定组件的行为变化,如语言模型的前两层和注意力头。
- 自然语言处理中偏见相关性及其缓解方法的研究
本文通过研究 NLP 模型中三个社会身份(种族、性别和宗教)之间的偏见相关性,提出在对偏见进行改善时需要综合考虑相关的偏见,而不是各自分开处理,以引导更多相关研究
- 使用生成式提示推断进行毒性检测
本文探讨零样本基于提示的毒性检测方法的生成变量,通过对提示工程的全面试验在三个社交媒体数据集上进行验证,并讨论了自诊断及其伦理影响的有趣方面。
- 评分人身份对毒性注释的影响:您的毒性是否也是我的毒性?
本文探讨了标注者自我描述身份对在线评论毒性注释的影响,并提出了自我描述身份形成特定标注者池的概念。我们发现,使用与评论主题相同自我描述身份的标注者会为标注提供更具包容性和细微差别的结果,从而训练出更准确的机器学习模型。
- ACLCONDA:一份用于游戏内毒性理解和检测的语境双注释数据集
本文介绍 CONDA 数据集,它是一个包含了来自 1.9K 完成的 Dota 2 比赛聊天记录的 12K 个对话和 45K 个话语的数据集,用于进行游戏中毒性语言的检测和自然语言理解。同时提出了一种鲁棒的双语义级毒性框架,能够处理话语和单词 - ACLToxCCIn: 毒性内容分类与解释能力
本文提出一种改进 transformer-based models 解释性的技术,通过假设一篇文章至少和其最有毒的部分一样有毒,并将其纳入训练过程来提高模型的可解释性,实验证明该方法优于逻辑回归分析,具备更高的质量和解释性。