BadGPT: 通过后门攻击探究 ChatGPT 的安全漏洞

Feb, 2023

BadGPT: 通过后门攻击探究 ChatGPT 的安全漏洞

BadGPT: Exploring Security Vulnerabilities of ChatGPT via Backdoor Attacks to InstructGPT

Jiawen Shi, Yixin Liu, Pan Zhou, Lichao Sun

TL;DR本研究提出了 BadGPT，这是第一种针对语言模型强化学习 Fine-Tuning 的后门攻击，将后门注入奖励模型，导致生成文本被攻击者操纵，初步实验在 IMDB 上得到了验证。

Abstract

Recently, chatgpt has gained significant attention in research due to its ability to interact with humans effectively. The core idea behind this model is reinforcement learning (RL) fine-tuning, a new paradigm th

chatgpt reinforcement learning badgpt backdoor attack imdb

发现论文，激发创造

使用 ChatGPT 作为攻击工具：通过黑盒生成模型触发的微妙文本后门攻击

本文研究黑盒生成模型作为后门攻击工具的作用以及相关防御策略，通过提出的基于生成模型的攻击方法 BGMAttack，证明其在对文本分类器进行攻击时能够有效地欺骗目标模型且更具隐秘性。五个不同数据集的广泛攻击效果评估，以及三个不同的人类认知评估均证明了该攻击方法的表现与基准方法相当，但更隐蔽。

Apr, 2023

快速采用，隐含风险：大型语言模型定制的双重影响

我们的研究论文首次提出了针对与不受信任的定制大型语言模型（例如 GPTs）集成的应用程序的指令后门攻击，这些攻击通过设计带有后门指令的提示将后门嵌入到定制的语言模型中，并在输入包含预定义触发器时输出攻击者所需的结果。我们的研究结果强调了定制化语言模型（如 GPTs）的脆弱性和潜在风险。

Feb, 2024

探索 ChatGPT 在软件安全应用中的极限

研究论文对大型语言模型（LLMs）在系统安全领域中的影响和局限性进行了探讨，发现 ChatGPT 不仅在生成代码方面有出色的能力，还在理解用户提供的自然语言指令、推理程序的控制和数据流、生成复杂数据结构以及反汇编汇编代码等方面展示了强大的能力。研究表明，GPT-4 在大多数安全任务中相较于 GPT-3.5 有显著改进，同时也确定了 ChatGPT 在安全相关任务中的某些限制，例如处理长代码上下文的能力受限。

Dec, 2023

ChatGPT 应用于数字取证调查：益处、弊端与未知

这篇论文评估了 ChatGPT（GPT-3.5、GPT-4）对数字取证领域的影响和潜在影响，重点关注最新的预训练 LLM GPT-4，通过一系列实验评估了它在包括文物理解、证据搜索、代码生成、异常检测、事件响应和教育等多个数字取证应用场景中的能力，并总结了它的优势和风险。综合而言，尽管 ChatGPT 在数字取证领域存在一些潜在的低风险应用，但很多应用目前不适用，因为需要将证据上传至服务端，或者需要对所询问的话题具有足够的知识以识别错误的假设、不准确性和错误。然而，对于合适的知识用户而言，在某些情况下，它可以作为一个有用的辅助工具。

Jul, 2023

ChatGPT 用于软件安全：探索 ChatGPT 在安全应用中的优势和限制

ChatGPT 对安全导向的程序分析的能力进行了研究，从攻击者和安全分析师的角度出发，通过引入挑战性任务评估 ChatGPT 的回答质量，以更清楚地了解其在安全导向的程序分析领域的优势和限制。

Jul, 2023

探索 ChatGPT 的安全风险：超越安全措施

本文旨在提供有关 ChatGPT 的安全风险的概述，包括恶意文本和代码生成、私人数据披露、诈骗服务、信息收集和生成不道德内容等。我们进行了一项实证研究，检验了 ChatGPT 内容过滤器的有效性，并探讨了绕过这些保护措施的潜在方式，展示了即使当有保护措施时，LLMs 仍存在的伦理和安全风险。基于对安全风险的定性分析，我们讨论了应对这些风险的潜在策略，并向研究人员、决策者和行业专业人员提供有关像 ChatGPT 这样的 LLMs 所面临的复杂安全挑战的信息。本研究对 LLMs 的伦理和安全影响的持续讨论做出了贡献，强调了在此领域需要继续进行研究的必要性。

May, 2023

揭示 ChatGPT 的安全、隐私和道德关切

该研究论述了 ChatGPT，这是一个利用主题建模和强化学习生成自然回复的人工智能聊天机器人。通过探索从 GPT-1 到 GPT-4 的升级路径，讨论模型的特点、局限性和潜在应用，该研究旨在揭示将 ChatGPT 融入我们日常生活中可能存在的安全、隐私和伦理问题，并分析这些领域的开放问题，呼吁共同努力确保安全和道德无可争议的大型语言模型的发展。

Jul, 2023

ChatGPT 多步越狱隐私攻击

本研究探讨了 OpenAI 和 New Bing API 应用中集成的大型语言模型对隐私的威胁，通过实验支持了对应用集成的 LLM 可能带来比以前更严重的隐私威胁的观点。

Apr, 2023

探索聊天模型的后门漏洞

最近的研究表明，大型语言模型（LLMs）容易受到称为后门攻击的安全威胁。本研究揭示了在聊天模型上实现的一种新颖的后门攻击方法，通过在不同轮次的用户输入中分发多个触发场景，并只在历史对话中出现了所有触发场景时激活后门，从而实现了高攻击成功率。

Apr, 2024

GPT 应用初探：概况与脆弱性

该研究论文探索了 GPT 商店的漏洞和抄袭问题，发现了大规模监控和分析商店以及提取 GPT 内部的有效工具，并揭示了 GPT 内部保护失效导致的广泛抄袭问题。

Feb, 2024