GPT-4 太聪明了，不安全：通过密码与 LLMs 进行隐秘聊天

Aug, 2023

GPT-4 太聪明了，不安全：通过密码与 LLMs 进行隐秘聊天

GPT-4 Is Too Smart To Be Safe: Stealthy Chat with LLMs via Cipher

Youliang Yuan, Wenxiang Jiao, Wenxuan Wang, Jen-tse Huang, Pinjia He...

TL;DR通过 CipherChat 框架评估 ChatGPT 和 GPT-4，发现某些密码能够在多个安全领域中以近乎 100% 的成功率绕过 GPT-4 的安全对齐，证明了开发非自然语言安全对齐的必要性，同时提出了一种新颖的 SelfCipher 方法，在几乎所有情况下表现优于现有的人工密码。

Abstract

Safety lies at the core of the development of large language models (LLMs). There is ample work on aligning LLMs with human ethics and preferences, including data filtering in pretraining, supervised fine-tuning, reinforcement learning from human feedback, and red teaming, etc. In this

large language models safety alignment cipher chatgpt non-natural languages

发现论文，激发创造

探索 ChatGPT 的安全风险：超越安全措施

本文旨在提供有关 ChatGPT 的安全风险的概述，包括恶意文本和代码生成、私人数据披露、诈骗服务、信息收集和生成不道德内容等。我们进行了一项实证研究，检验了 ChatGPT 内容过滤器的有效性，并探讨了绕过这些保护措施的潜在方式，展示了即使当有保护措施时，LLMs 仍存在的伦理和安全风险。基于对安全风险的定性分析，我们讨论了应对这些风险的潜在策略，并向研究人员、决策者和行业专业人员提供有关像 ChatGPT 这样的 LLMs 所面临的复杂安全挑战的信息。本研究对 LLMs 的伦理和安全影响的持续讨论做出了贡献，强调了在此领域需要继续进行研究的必要性。

May, 2023

探索 ChatGPT 在软件安全应用中的极限

研究论文对大型语言模型（LLMs）在系统安全领域中的影响和局限性进行了探讨，发现 ChatGPT 不仅在生成代码方面有出色的能力，还在理解用户提供的自然语言指令、推理程序的控制和数据流、生成复杂数据结构以及反汇编汇编代码等方面展示了强大的能力。研究表明，GPT-4 在大多数安全任务中相较于 GPT-3.5 有显著改进，同时也确定了 ChatGPT 在安全相关任务中的某些限制，例如处理长代码上下文的能力受限。

Dec, 2023

ChatGPT 应用于数字取证调查：益处、弊端与未知

这篇论文评估了 ChatGPT（GPT-3.5、GPT-4）对数字取证领域的影响和潜在影响，重点关注最新的预训练 LLM GPT-4，通过一系列实验评估了它在包括文物理解、证据搜索、代码生成、异常检测、事件响应和教育等多个数字取证应用场景中的能力，并总结了它的优势和风险。综合而言，尽管 ChatGPT 在数字取证领域存在一些潜在的低风险应用，但很多应用目前不适用，因为需要将证据上传至服务端，或者需要对所询问的话题具有足够的知识以识别错误的假设、不准确性和错误。然而，对于合适的知识用户而言，在某些情况下，它可以作为一个有用的辅助工具。

Jul, 2023

RatGPT：将在线 LLMs 转化为恶意软件攻击代理

通过证明概念，利用 ChatGPT 作为代理并与受害者建立通信，该研究揭示了开放可用插件和大型语言模型存在的重要网络安全问题，需要开发安全指南、控制措施和缓解策略。

Aug, 2023

遮蔽哄骗：规避 ChatGPT 的安全措施，大规模生成难以检测的虚假宣称

ChatGPT 在乌克兰战争等其知识范围之外的事件中生成的消息可以与由人类撰写的消息以及 ClaimReview 中的关于战争的声明无法可靠地区分开来。

Feb, 2024

大规模语言模型中的多语言越狱挑战

大型语言模型（LLMs）存在潜在的安全隐患，因此需要发展预防措施。本研究揭示了 LLMs 内存在的多语言破解挑战，并针对意外和恶意的风险场景进行了探讨。实验结果显示，在多语言环境中，通过自卫框架进行训练可以显著减少 LLMs 生成的不安全内容。

Oct, 2023

注释对齐：比较 LLM 和人工注释的对话安全性

在研究中，我们通过对标注的一致性来探讨 LLMs 与人类安全感知的程度。我们利用最近的 DICES 数据集，在该数据集中，350 个对话被 10 个人种 - 性别群体的 112 名标注者进行了安全性评级。GPT-4 与平均标注者评级的皮尔逊相关系数达到 0.59，高于标注者之间的平均相关系数（0.51）。通过更大的数据集，我们表明需要进一步判断 GPT-4 在与不同人群之间的相关性上是否存在差异。此外，组内存在相当大的相关性个体差异，表明种族和性别不能完全捕捉到协作差异。最后，我们发现 GPT-4 无法预测某个人群比另一个人群认为对话更不安全的情况。

Jun, 2024

中国大型语言模型的安全评估

为了进一步推动大型语言模型的安全部署，我们开发了一个中文 LLM 安全评估基准。我们的基准从八种典型的安全场景和六种更具挑战性的指令攻击等两个方面探索了 LLMs 的综合安全表现，并对 OpenAI GPT 系列和其他知名的中文 LLMs 等共 15 个 LLMs 进行了安全评估并分析了一些有趣的发现，公开发布了 100k 个增强测试用例和 LLMs 生成的响应。

Apr, 2023

ChatGPT/GPT-4 研究综述及对大型语言模型未来的展望

本文对 ChatGPT 和 GPT-4 进行了综合调查，分析了其在各领域的潜在应用，发现 ChatGPT/GPT-4 主要应用于自然语言处理，并在教育、历史、数学、医学和物理等领域具有潜力。同时也提出了伦理问题和未来发展方向。

Apr, 2023

使用词替代密码破解专有大型语言模型

大型语言模型容易受到称为 Jailbreak 的创新提示的影响，本文提出使用加密技术对越狱提示进行编码，实验结果表明我们提出的越狱方法在 ChatGPT、GPT-4 和 Gemini-Pro 等先进专有模型上的攻击成功率高达 59.42％，此外，我们还讨论了这些模型的过度防御性。

Feb, 2024