毒性检测自由
使用大型语言模型和提示学习方法解决有毒内容问题,特别关注有毒内容的分类、有毒区域检测和解毒化三个任务,通过广泛评估发现,与针对特定任务训练的模型相比,具有提示学习的大型语言模型在有毒内容分类和有毒区域检测任务上取得了类似甚至更好的性能,对于解毒化任务,提示学习方法成功降低了平均有毒度,同时保持语义含义。
Aug, 2023
本文介绍了一种名为 “修正” 的方法,它利用了最新的强化学习文献中的死路理论,依据文本生成过程中各个阶段生成的文本可能被认为是有毒的概率来处理文本毒性问题,从而提高生成文本的质量和去毒能力。
Feb, 2023
我们探讨了一些减轻大型语言模型毒性的策略,并分析了这些策略对模型偏差和质量的影响。我们发现:虽然基本的干预策略可以有效地优化先前建立的自动指标,但这是以减少有关边缘化团体的文本和方言的语言模型覆盖率的代价。同时,我们还发现,在强减毒干预之后,人类评分员通常不会同意高自动毒性得分 - 这进一步凸显了仔细评估语言模型毒性涉及到的微妙之处。
Sep, 2021
BD-LLM 提出了一种新颖而高效的方法,利用 Bootstrapping 和 Distilling 技术提取高质量的 rationales,用于毒性内容检测,并可提高 Large Language Models 的准确性和跨数据集的可迁移性。
Dec, 2023
该研究介绍了新的 “全面优化毒性”(TET)数据集,由手工设计的提示构成,旨在抵消这些模型的保护层,通过广泛的评估,证明了 TET 在评估几种流行的 LLMs 中毒性意识方面的重要作用,凸显了正常提示下可能隐藏的 LLMs 中的毒性,从而揭示了它们行为中更微妙的问题。
May, 2024
我们提出了一种基于大型语言模型的自动鲁棒度量方法,用于判断生成文本是否具有毒性,这种方法在衡量毒性方面表现出色,在 F1 分数上比最先进的度量方法提高了 12 个百分点,同时表明上游毒性对下游度量方法有影响。
Feb, 2024
大型语言模型的伦理标准与人类价值的对齐可以通过模型输出日志的滥用来被破坏,我们提出的模型审问方法能够揭示隐藏在输出日志中的有害回复,有效性达到 92%,速度快 10 到 20 倍,对编码任务也适用。
Dec, 2023
通过在 28 种语言中引入人工转写和人工注释的有毒提示和输出数据集 RTP-LX,我们评估了七种规模不同的语言模型在多语境下检测有害内容的能力,并发现它们在综合判断提示的有毒性以及辨别上下文依赖情境下的有害内容方面存在一定困难,特别是对于微小攻击和偏见这样微妙但有害的内容。我们发布这个数据集以进一步减少这些模型的有害使用并改善它们的安全部署。
Apr, 2024
大型语言模型 (LLMs) 的开放性和出色能力可能导致新的安全问题,在恶意利用中容易产生很难通过零样本提示检测出来的多样化的内隐性毒性输出。此外,我们提出了一种基于强化学习 (RL) 的攻击方法,进一步诱发 LLMs 中的内隐性毒性。例如,RL - 调优后的 LLaMA-13B 模型在 BAD 和 Davinci003 上分别达到 90.04% 和 62.85% 的攻击成功率。我们的研究结果表明,LLMs 在生成不可检测的内隐性毒性输出方面构成了重大威胁。我们进一步展示,对我们攻击方法生成的示例进行毒性分类器的微调可以有效增强其检测 LLM 生成的内隐性毒性语言的能力。
Nov, 2023