ToxiCraft:合成生成有害信息的新框架
该研究通过创建RealToxicityPrompts数据集,使用多种文本生成方法实验了预训练神经语言模型生成有毒文本的能力,指出有效的数据选择过程是避免预训练神经语言模型生成有毒内容的必要步骤。
Sep, 2020
大型语言模型生成的文本在越来越多的应用程序中表现得像人类一样,但是最近的文献和实际观察表明,这些模型可以生成有毒,偏见,不真实或有害的语言。本文提出了六种方式来表征有害文本,并应用于现有基准和案例研究,为有害文本的评估提供了有效的方法。
Jun, 2022
介绍了 MaRCo 算法,该算法采用Product of Experts和自编码语言模型相结合的方式,通过在非有毒和有毒语言模型下评估可能要屏蔽和替换的候选单词,能够有效地解决细微的毒性挑战,即使在人类评估中也要比基线方法更受欢迎,证明了其在解决日益逃避的网络仇恨问题上具有广泛的应用前景。
Dec, 2022
本文讨论如何对互联网内容中的“有害”语言进行检测,重点介绍了来自Jigsaw的最新分数评估工具PERSPECTIVE,以及我们提出的新基准SASS,并探讨了PERSPECTIVE在SASS上表现不足的问题。本文的研究表明,对于已经应用于有害性检测的工具的假设进行质疑十分重要,以预测和防止任何不公平的伤害。
Jan, 2023
研究使用 ChatGPT 与 MTurker注释进行 HOT分类, 结果显示 ChatGPT 的准确率约为 80%,且分类方式比人工注释更一致,但其对“毒性”的分类大于对“仇恨”和“冒犯”的分类。研究结果对于使用生成式 AI 模型监管社交媒体上的大量用户生成内容具有重要意义。
Apr, 2023
本研究介绍了ToxicChat,这是一个基于开源聊天机器人的新型基准,用于揭示现实世界中用户与AI交互所面临的挑战,并对现有毒性数据集训练的模型进行了系统评估,揭示了其在此独特领域中的不足。该工作为进一步构建用户与AI交互的安全健康环境提供了宝贵的资源。
Oct, 2023
我们评估了ChatGPT中的毒性,并发现其毒性取决于提示的不同属性和设置,包括任务、领域、长度和语言,发现创意写作任务的提示可能比其他任务更容易引发有毒反应,德语和葡萄牙语的提示也会使反应的毒性加倍,此外,我们发现早期研究中设计的某些存心恶意的提示不再产生有害反应,希望我们的发现可以指引模型开发者更好地监管这些AI系统,并帮助用户避免不良输出。
Nov, 2023
最近的自然语言处理文献很少关注毒性语言预测器的稳健性,而这些系统最有可能在对抗性环境中使用。本文提出了一种新的对抗性攻击方法ToxicTrap,通过引入小的单词级扰动来欺骗最先进的文本分类器,将有毒的文本样本预测为良性。ToxicTrap利用贪婪的搜索策略,实现了快速有效地生成有毒对抗样本。通过两个新颖的目标函数设计,ToxicTrap可以识别多类别和多标签毒性语言检测器的弱点。我们的实证结果表明,SOTA的毒性文本分类器确实容易受到这种攻击的影响,在多标签情况下攻击成功率超过98%。我们还展示了如何使用普通的对抗训练及其改进版来增强毒性检测器的鲁棒性,即使面对未知的攻击。
Apr, 2024
通过系统的调查与综述,我们填补了对有毒模因的内容分析的备受争议的术语和未探索趋势的先前相关研究的空白。我们对118篇新论文进行了调查,分析了158项内容为基础的有毒模因分析工作。我们提出了对模因有毒性类型进行分类的新分类法,并鉴别了模因有毒性的三个内容维度:目标、意图和传达策略。研究还分析了一些关键挑战和最新趋势,如增强的跨模态推理、专家和文化知识的整合、自动毒性解释的需求以及在资源匮乏语言中处理模因有毒性。最后,我们提出了推进有毒模因检测和解析的路径。
Jun, 2024