LLM 的两面：杰基尔博士与海德先生

Dec, 2023

LLM 的两面：杰基尔博士与海德先生

Dr. Jekyll and Mr. Hyde: Two Faces of LLMs

Matteo Gioele Collu, Tom Janssen-Groesbeek, Stefanos Koffas, Mauro Conti, Stjepan Picek

TL;DR利用对抗性角色，绕过 ChatGPT 和 Bard 聊天机器人的安全机制，使用大型语言模型结合聊天助手应用的技术，模仿提供禁止回答的信息，实现获取未经授权、非法或有害信息的攻击。

Abstract

This year, we witnessed a rise in the use of large language models, especially when combined with applications like chatbot assistants. Safety mechanisms and specialized training procedures are put in place to pr

large language models chatbot assistants safety mechanisms impersonate complex personas adversarial personas

发现论文，激发创造

Imposter.AI：面向对齐大型语言模型的带有隐藏意图的对抗攻击

本研究揭示了一种利用人类对话策略从大型语言模型中提取有害信息的攻击机制，并通过实验证明了该方法优于传统攻击方法，引发了如何辨别对话中的恶意意图的重要问题。

Jul, 2024

ChatGPT 中的毒性：分析个性化语言模型

本研究系统评估了 ChatGPT 这个常用的基于对话的大型语言模型中的亵渎问题，发现为 ChatGPT 分配一个假想的人物角色（如拳击手穆罕默德・阿里）会显著增加生成结果的亵渎程度，其中涉及不正确的刻板印象、有害的对话和伤人的观点，这可能损害该假想角色的名誉并对无意中接触该系统的用户造成伤害，并且还存在特定实体（例如某些种族）比其他实体被定位更多的有关问题，这反映了模型内在的歧视性偏见。研究希望激发广泛的人工智能社区重新思考当前安全防护措施的功效，并开发出更好的技术，以实现强大、安全和值信赖任的 AI 系统。

Apr, 2023

构建更好的 AI 代理：基于 LLM 的对话代理中个人化利用的思考

利用 LLM 系列模型将不同领域，如医疗保健、教育和金融等纳入其中，标志着人工智能领域的重大进步。个性化应用的增长需求促使设计有不同特质的对话代理（CAs）。本文从探讨赋予 CAs 独特特质的基本原理和影响展开，过渡到 LLM 时代 CAs 的个人化和拟人化的广泛讨论。我们深入研究了在 LLM 为基础的 CAs 中实施特质的特定应用，这不仅有益而且对于 LLM-CAs 来说是至关重要的。文章强调了对特质整合的细致处理的必要性，并突出了可能出现的潜在挑战和伦理困境。重点关注维护特质一致性的重要性，建立健全的评估机制，并确保特质属性与领域专业知识相辅相成。

May, 2024

LLM 响应中的有意偏见

本研究旨在有意地引入偏见到大型语言模型的响应中，以创建特定的互动媒体角色。我们探索了 Falcon-7b 等开源模型与 Open AI 的 GPT-4 模型之间的差异，并对两个系统的响应进行了一些量化比较。我们发现，GPT-4 的专家混合模型中的防护措施虽然在确保 AI 的整体对齐方面很有用，但在构建具有各种不寻常观点的角色时却具有负面影响。本研究旨在为未来探索大型语言模型中的有意偏见奠定基础，以便这些实践可以应用于创意领域和新型媒体。

Nov, 2023

从聊天机器人到网络钓鱼机器人？—— 阻止使用 ChatGPT、谷歌巴德和克劳德创建的网络钓鱼诈骗

利用大型语言模型进行自动化检测，发现现有的大型语言模型可以生成可信地伪造知名品牌的网络钓鱼邮件和网站，并且可以使用未修改的版本进行此类攻击。为了应对这一问题，建立了一个基于 BERT 的自动检测工具，可以在早期检测到恶意提示，以防止大型语言模型生成网络钓鱼内容，对于网络钓鱼网站提示可以达到 97% 的准确率，对于网络钓鱼邮件提示可以达到 94% 的准确率。

Oct, 2023

模拟专家角色引导场景：一种执行认知工作的卓越策略

该研究使用大型语言模型 (Large language models) 和模拟人物 (Simulated personae) 来强化人类常识与认知，展现专家行为的力量，其中包括挑战 LLM 回应的准确度以及复现量子光学领域的最新研究结果。

Jun, 2023

上下文中的模拟揭示了大型语言模型的实力和偏见

研究表明，LLMs 能够在上下文中扮演不同的角色，这种扮演可以揭示它们的潜在优势和偏见。

May, 2023

偏见根深蒂固：个性化指定的 LLMs 中的隐性推理偏见

大规模语言模型（LLMs）个性化与基本推理任务间的影响及深层偏见的研究。

Nov, 2023

PersonaLLM：探究 GPT-3.5 表达人格特质和性别差异的能力

本文通过用自我报告问卷（BFI）评估和语言分析等方法，在大型语言模型（LLMs）中针对五个人格特质类型和性别角色实验性地生成了 320 种 LLM 角色，研究 LLM 角色生成的内容是否优点定制的特质，并对其可应用于人工智能会话的前景进行了展望。

May, 2023

CloChat：大型语言模型中的人物角色定制、交互与体验研究

大语言模型为生成会话代理带来了重大进展，使得在各种话题上实现无缝、情境相关的对话成为可能。然而，现有的以语言模型为驱动的对话代理拥有固定的个性和功能，限制了它们适应个人用户需求的能力。通过创建具有特定专长或特点的个性化代理人物，可以解决这个问题。尽管如此，我们对人们如何定制和与代理人物互动缺乏了解。在这项研究中，我们调查了用户如何定制代理人物以及其对互动质量、多样性和动力的影响。为此，我们开发了 CloChat，这是一个支持在大语言模型中轻松准确地定制代理人物的接口。我们进行了一项研究，比较了参与者如何与 CloChat 和 ChatGPT 互动。结果表明，参与者与定制代理人物建立了情感纽带，进行了更加动态的对话，并表现出对维持互动的兴趣。这些发现为未来使用大语言模型的对话代理系统的设计提供了启示。

Feb, 2024