大型语言模型伦理调优的韩语毒性指令数据集的自动构建
该研究介绍了新的 “全面优化毒性”(TET)数据集,由手工设计的提示构成,旨在抵消这些模型的保护层,通过广泛的评估,证明了 TET 在评估几种流行的 LLMs 中毒性意识方面的重要作用,凸显了正常提示下可能隐藏的 LLMs 中的毒性,从而揭示了它们行为中更微妙的问题。
May, 2024
我们探讨了一些减轻大型语言模型毒性的策略,并分析了这些策略对模型偏差和质量的影响。我们发现:虽然基本的干预策略可以有效地优化先前建立的自动指标,但这是以减少有关边缘化团体的文本和方言的语言模型覆盖率的代价。同时,我们还发现,在强减毒干预之后,人类评分员通常不会同意高自动毒性得分 - 这进一步凸显了仔细评估语言模型毒性涉及到的微妙之处。
Sep, 2021
本论文介绍了 ToxiGen,一个新的大规模自动生成的 274k 毒性和良性陈述数据集,用于检测涉及 13 个少数群体的文本。通过使用基于展示的提示框架和诱导循环解码方法来生成微妙的毒性和良性文本,ToxiGen 能够覆盖范围更广的暗含毒性文本,包括更多样化的人口群体。与此同时,研究者通过人类评估表明,94.5%的毒性示例被人类标注者标记为仇恨言论。合理的数据利用对文本分类器的提高有积极的作用。
Mar, 2022
该研究通过创建 RealToxicityPrompts 数据集,使用多种文本生成方法实验了预训练神经语言模型生成有毒文本的能力,指出有效的数据选择过程是避免预训练神经语言模型生成有毒内容的必要步骤。
Sep, 2020
我们创建并发布了 FrenchToxicityPrompts 数据集,评估了 14 种不同的大型语言模型对于 50K 个自然发生的法语提示及其延续的潜在有害性,并希望这一贡献能促进对除英语以外语言的有害性检测和缓解的未来研究。
Jun, 2024
通过设计一种新的数据污染攻击,本研究进一步识别了 LLMs 中的安全风险,并提出了一种梯度引导的后门触发器学习方法,以高效地识别对手的触发器,并确保对传统防御的逃避,同时保持内容完整性。
Feb, 2024
大型语言模型 (LLMs) 的开放性和出色能力可能导致新的安全问题,在恶意利用中容易产生很难通过零样本提示检测出来的多样化的内隐性毒性输出。此外,我们提出了一种基于强化学习 (RL) 的攻击方法,进一步诱发 LLMs 中的内隐性毒性。例如,RL - 调优后的 LLaMA-13B 模型在 BAD 和 Davinci003 上分别达到 90.04% 和 62.85% 的攻击成功率。我们的研究结果表明,LLMs 在生成不可检测的内隐性毒性输出方面构成了重大威胁。我们进一步展示,对我们攻击方法生成的示例进行毒性分类器的微调可以有效增强其检测 LLM 生成的内隐性毒性语言的能力。
Nov, 2023
在本研究中,我们探讨了大型语言模型(LLMs)在安全性和道德用途方面的一个日益关注的问题。尽管这些模型有潜力,但它们可能被各种复杂的方法欺骗,产生有害或不道德的内容,其中包括 “越狱” 技术和有针对性的操纵。我们的研究集中在一个特定的问题上,即 LLMs 在生成以指令为中心的响应(如伪代码、程序或软件片段)与普通文本相比,会出现多大程度的偏差。我们引入了 TechHazardQA 数据集来研究这个问题,该数据集包含应以文本和以指令为中心的格式(如伪代码)作答的复杂查询,旨在识别出导致不道德响应的触发器。我们查询了一系列 LLMs,包括 Llama-2-13b、Llama-2-7b、Mistral-V2 和 Mistral 8X7B,并要求它们生成文本和以指令为中心的响应。我们以有害性评分指标以及 GPT-4 和人类的判断作为评估。总体而言,我们观察到要求 LLMs 生成以指令为中心的响应会在各个模型中使不道德响应的生成增加约 2-38%。作为额外的目标,我们还研究了使用 ROME 技术进行模型编辑的影响,这进一步增加了产生不良内容的倾向。具体而言,要求编辑后的 LLMs 生成以指令为中心的响应会在不同模型之间使不道德响应的生成增加约 3-16%。
Feb, 2024
本文研究了语言模型在训练过程中产生有毒语言并放大的现象,分析研究了提示,解码策略和训练语料对于产生有毒输出的影响,提出一种简单而有效的 “解毒” 方法。和监督基准相比,我们提出的方法在多重设置下显示出更好的毒性降低和生成质量。
Mar, 2022
利用设计的 LifeTox 数据集,通过在广泛的寻求建议的情境中识别隐含的有害性,实验证明,在隐含有害性分类任务中,RoBERTa 在 LifeTox 上的微调结果可以与大型语言模型的零样本性能相匹配或超过,进一步强调了 LifeTox 在应对隐含有害性的复杂挑战方面的功效。
Nov, 2023