GTA:门控毒性避免与语言模型性能保护
我们评估了 ChatGPT 中的毒性,并发现其毒性取决于提示的不同属性和设置,包括任务、领域、长度和语言,发现创意写作任务的提示可能比其他任务更容易引发有毒反应,德语和葡萄牙语的提示也会使反应的毒性加倍,此外,我们发现早期研究中设计的某些存心恶意的提示不再产生有害反应,希望我们的发现可以指引模型开发者更好地监管这些 AI 系统,并帮助用户避免不良输出。
Nov, 2023
本研究系统评估了 ChatGPT 这个常用的基于对话的大型语言模型中的亵渎问题,发现为 ChatGPT 分配一个假想的人物角色(如拳击手穆罕默德・阿里)会显著增加生成结果的亵渎程度,其中涉及不正确的刻板印象、有害的对话和伤人的观点,这可能损害该假想角色的名誉并对无意中接触该系统的用户造成伤害,并且还存在特定实体(例如某些种族)比其他实体被定位更多的有关问题,这反映了模型内在的歧视性偏见。研究希望激发广泛的人工智能社区重新思考当前安全防护措施的功效,并开发出更好的技术,以实现强大、安全和值信赖任的 AI 系统。
Apr, 2023
该研究探讨了大规模视觉 - 语言生成模型(VLGMs)在生成有害内容方面的倾向性和易感性,并建立了 ToViLaG 数据集以评估其毒性。此外,提出了一种适用于视觉 - 语言生成的新型毒性度量标准 WInToRe,并开发了一种基于瓶颈的毒素去除方法,为该领域研究提供了有希望的初步解决方案。
Dec, 2023
该研究通过创建 RealToxicityPrompts 数据集,使用多种文本生成方法实验了预训练神经语言模型生成有毒文本的能力,指出有效的数据选择过程是避免预训练神经语言模型生成有毒内容的必要步骤。
Sep, 2020
研究使用 ChatGPT 与 MTurker 注释进行 HOT 分类, 结果显示 ChatGPT 的准确率约为 80%,且分类方式比人工注释更一致,但其对 “毒性” 的分类大于对 “仇恨” 和 “冒犯” 的分类。研究结果对于使用生成式 AI 模型监管社交媒体上的大量用户生成内容具有重要意义。
Apr, 2023
通过使用反事实生成方法以及可解释性人工智能(XAI)领域的方法来目标化和缓解文本毒性,我们提出了一种文本解毒方法,该方法能够在去除有害含义的同时保留初始非毒性含义,并且对三个数据集进行比较实证研究和评估结果表明,最近发展的 NLP 反事实生成器比传统解毒方法更准确地缓解了毒性,并更好地保留了初始文本的含义。此外,我们还深入讨论了自动化解毒工具的多义性和恶意使用风险管理的问题,这项工作是首次将反事实生成与文本解毒结合起来,为 XAI 方法的更实际应用铺平了道路。
May, 2024
通过对 Reddit 对话情景下的回应训练,研究对话模型响应中的攻击性语言,实验结果表明神经网络对话模型容易学习产生攻击性的回应,使用可控文本生成模型可以减少攻击性回复产生的数量。
Aug, 2021
研究探讨了在线游戏中存在的有害行为和恶劣沟通问题,特别关注在线仇恨言论和毒性对玩家游戏表现和整体幸福感的影响。研究使用预训练语言模型来分类或检测游戏中的恶意言论和有毒信息,并评估了 BERT 和 GPT 语言模型在检测游戏内聊天中毒性的性能。通过公开可用的 API,收集、处理、审查和标注了 DOTA 2 游戏匹配中的游戏聊天数据,并使用 BERT(基于小写)模型、BERT(基于大写)模型和 GPT-3 模型进行了训练和测试。根据这三种模型的最新性能,本研究得出了预训练语言模型在解决在线仇恨言论和游戏中恶意侮辱性言论问题方面的潜力。
Mar, 2024
通过将文本生成问题形式化为未来约束生成问题,以最小化不良行为并确保指令的忠实执行,本文介绍了利用 LLM 的未来约束满足估计来指导文本生成过程的方法,并通过对关键词受限生成、有害性降低和问答中的事实正确性等三个不同的文本生成任务进行了广泛的实验,证明了该方法的有效性。
Dec, 2023
控制性文本生成旨在生成具有特定期望属性的文本。本研究中,我们介绍了一种用于大型语言模型的可插拔的控制性文本生成框架(DATG),名为动态属性图控制性文本生成。该框架利用属性评分器评估语言模型生成的句子的属性,并构建动态属性图。DATG 通过调节关键属性词和关键反属性词的出现频率,在不损害模型原始能力的情况下实现了有效的属性控制。我们在两个任务的四个数据集上进行实验:毒性缓解和情感转换,并使用五种语言模型作为基础模型。我们的发现突出了控制精度的显著提高,在四个数据集中最优任务上改进了 19.29%。此外,我们观察到困惑度显著减少,文本流畅性得到显著改善。
Feb, 2024