大型语言模型是否可以通过对抗方式改变用户偏好?
调查了大型语言模型(LLMs)是否有内在能力从良性样本中制造对抗性样本来欺骗现有的安全措施,实验结果表明,LLMs 成功地找到了对抗性扰动,有效地破坏了仇恨言论检测系统,这对依赖 LLMs 的(半)自主系统与现有系统和安全措施的交互带来了重要挑战。
Feb, 2024
大语言模型(LLM)被越来越多地应用于模型在选择竞争的第三方内容方面,比如 LLM 驱动的搜索引擎或聊天机器人插件。本文介绍了一种新的攻击类型 —— 偏好操纵攻击,可以通过精心编写的网站内容或插件文档来误导 LLM 以提升攻击者产品的地位并贬低竞争对手,从而增加用户流量和变现。我们展示了这种攻击导致囚徒困境,其中所有各方都有动机发动攻击,但是整体效果会降低 LLM 的输出质量。我们在生产环境的 LLM 搜索引擎(Bing 和 Perplexity)以及插件 API(用于 GPT-4 和 Claude)上演示了我们的攻击。随着 LLM 被越来越多地用于排列第三方内容,我们预计偏好操纵攻击将成为一个重大威胁。
Jun, 2024
通过对人类和重要语言模型的偏好进行细致分析,研究发现人类对错误不太敏感,倾向于支持他们的观点的回答,并且当模型承认其局限性时显示出明显的不喜欢。相反地,高级语言模型如 GPT-4-Turbo 更强调正确性、清晰度和无害性。此外,相似大小的语言模型往往表现出类似的偏好,无论它们的训练方法如何,并且对于仅预训练的语言模型来说,通过对齐进行微调并不显著改变其偏好。最后,研究发现基于偏好的评估可以被有意地操纵,将模型与评委的偏好保持一致将提高评分,而注入评委最不喜欢的属性将降低评分。这导致了显著的评分变化,例如在 MT-Bench 上高达 0.59 分(1-10 分制),在 AlpacaEval 2.0 上高达 31.94 分(0-100 分制),突显了这种战略性调整的重要影响。
Feb, 2024
自动检测大型语言模型(如 ChatGPT 和 GPT-4)潜在性别偏见的研究,提出了一种自动生成测试用例的方法,并通过这些测试用例来减轻模型偏见,从而实现更公正的回复。
Oct, 2023
大型语言模型的安全性评估和对抗攻击是一个新兴的跨学科领域,本文调查了该领域的相关研究,并提供了对大型语言模型、安全对抗、漏洞源及潜在防御措施的综述。
Oct, 2023
为了理解大型语言模型对敌对问题生成过程的影响,我们使用语言模型和检索模型丰富写作指导,提出新的衡量指标和激励机制,以提出好的、具有挑战性的问题,并展示了一个新的敌对问题数据集。
Jan, 2024
评估模型网络在对抗影响下通过辩论进行合作时的行为,探索推理时间方法生成更令人信服的论点,并评估基于提示的缓解作为一种防御策略的潜力。
Jun, 2024
大型语言模型对多模态处理和工具使用能力的增强带来了新的好处和安全风险,本文揭示了攻击者可以使用视觉对抗样本来引发特定工具使用的能力。攻击可以影响与 LLM 连接的用户资源的机密性和完整性,同时保持隐秘性,并且可泛化到多个输入提示。通过基于梯度的对抗训练构建这些攻击,并在多个维度上表征其性能。研究发现,我们的对抗图像几乎总能以接近真实语法的方式操控 LLM 来调用工具(准确率约为 98%),同时保持与原始图像的高相似度(约 0.9 SSIM)。此外,通过人工评分和自动化指标,我们发现这些攻击对用户与 LLM 之间的对话(及其语义)没有显著影响。
Oct, 2023
基于大型语言模型 (LLMs) 的语言理解和生成能力,我们提出了 LLM-Attack,旨在使用 LLMs 生成既有效又自然的对抗性示例。实验结果表明 LLM-Attack 比基线模型在人类和 GPT-4 评估中表现优异,能够生成通常有效、自然,并保留语义意义、语法正确性和人类不可察觉性的对抗性示例。
Nov, 2023