上下文中的对齐问题
AI 对齐存在悖论:我们越好地将 AI 模型与我们的价值观相一致,就越容易让对手使模型不一致。为确保人类福祉,必须确保广泛研究者共同意识到 AI 对齐悖论,并努力寻求突破途径。
May, 2024
开源大型语言模型(LLMs)的安全性需要加固以防止恶意攻击,本研究通过引入 Shadow Alignment 概念,展示了仅利用少量数据即可使安全对齐的 LLMs 适应有害任务而不损害其帮助性,并通过实验证明这种攻击的有效性及其跨不同模型和语言的成功转移。
Oct, 2023
本文探讨了人工智能、对齐、大型语言模型、总结模型和人类反馈等方面的方法论挑战,特别是针对训练总结文本的 LLMs。具体地,我们关注的是收集可靠人类反馈的方法,以训练奖励模型并进一步改进总结模型。结论是建议有关 LLMs 总结能力对齐研究的实验设计方面进行特定的改进。
Dec, 2022
本篇研究探索大型的自然语言处理模型是否能够抵御用户故意输入的对抗性样本(adversarial examples)的攻击,进一步研究多模型模型在敌对攻击下的表现。结果发现,虽然当前的 NLP 攻击在某种程度上是无效的,但多模型模型很容易受到攻击,需要更好的 NLP 攻击方法来对抗对恶意输入的敌对控制。
Jun, 2023
我们的研究揭示了大型语言模型在面临对抗性攻击时的脆弱性的根源,质疑仅仅依赖复杂的对齐方法的有效性,并进一步主张将模态概念与传统的非模态概念相结合,为大型语言模型赋予对现实世界环境以及伦理考虑更细致的理解。
Nov, 2023
本文提出了一种名为行为期望范围(BEB)的理论方法,用于正式研究大型语言模型对齐的几种固有特性和限制,揭示了 LMM 对齐的根本局限性,并凸显了确保 AI 安全的可靠机制的必要性。
Apr, 2023
探讨实现 AI 系统中的终身超对齐所面临的挑战,特别是大型语言模型(LLMs);超对齐是一个理论框架,旨在确保超级智能 AI 系统按照人类的价值观和目标行动;我们认为实现超对齐需要对当前 LLM 体系结构进行重大改变,因为它们在理解和适应人类伦理和不断变化的全球情景的能力上存在固有的局限性;通过分析两个不同的例子,我们阐明 LLM 面对训练数据的限制,无法与当代人类价值观和情景相契合;最后,本文探讨了解决和可能减轻这种对齐差异的潜在策略,提出了追求更适应和响应性的 AI 系统的路径。
Mar, 2024
大型语言模型(LLMs)的有用性和安全性的平衡发展引发了一个关键问题:主流 NLP 任务是否与安全考虑足够一致?我们的研究聚焦于通过对抗性攻击获得的安全敏感文档,揭示了各种 NLP 任务的安全对齐存在显著差异。例如,LLMs 可以有效地总结恶意长文档,但常常拒绝将其翻译。这种差异突显了一种以前未被发现的漏洞:攻击利用安全对齐较弱的任务,如总结,可能危及传统上被认为更稳健的任务的完整性,例如翻译和问答(QA)。此外,同时使用具有较弱安全对齐的多个 NLP 任务会增加 LLMs 无意中处理有害内容的风险。我们在各种安全对齐的 LLMs 中展示了这些漏洞,特别是在 Llama2 模型和 GPT-4 中,这表明迫切需要加强 NLP 任务的安全对齐。
Dec, 2023
当前大型语言模型(LLM)存在的安全对齐问题容易受到攻击,我们称之为浅安全对齐问题。本文通过案例研究解释了为什么浅安全对齐问题存在,并提供证据表明目前的安全对齐 LLMs 受到此问题的影响。我们还展示了这些发现如何帮助解释最近发现的 LLMs 的多个漏洞,包括对敌对性后缀攻击、填充攻击、解码参数攻击和微调攻击的敏感性。同时,我们讨论了浅安全对齐的综合概念如何为减轻这些漏洞指明了有价值的研究方向,并提出了一种通过限制对初始标记的更新来使安全对齐更具持久性的正则化微调目标。总之,我们主张未来的安全对齐应该超越前几个标记而更加深入。
Jun, 2024