- 揭示 GPT-4o 的安全性:使用越狱攻击进行的实证研究
该论文首次对 GPT-4o 进行了严格的安全评估,发现 GPT-4o 在文本模式破解方面具有增强的安全性,同时引入的音频模式为对 GPT-4o 的破解攻击开辟了新的攻击向量,并且现有的黑盒多模态破解攻击方法在 GPT-4o 和 GPT-4V - S-Eval: 大型语言模型安全评估的自动化和自适应测试生成
在这项工作中,我们提出了 S-Eval,这是一个新的全面、多维度且开放的安全评估基准,通过训练专家测试的大型语言模型 Mt 与一系列测试选择策略相结合,自动构建了一个高质量的测试套件用于安全评估。该论文还介绍了一个四级的风险分类体系,覆盖了 - RTP-LX: 多语言情境下,LLM 能否评估毒性?
通过在 28 种语言中引入人工转写和人工注释的有毒提示和输出数据集 RTP-LX,我们评估了七种规模不同的语言模型在多语境下检测有害内容的能力,并发现它们在综合判断提示的有毒性以及辨别上下文依赖情境下的有害内容方面存在一定困难,特别是对于微 - 先进人工智能模型的整体安全和责任评估
高级 AI 模型的安全性和责任评估是研究和实践的一个关键但发展中的领域。该报告总结了 Google DeepMind 在高级 AI 模型的开发中创新并应用了一系列广泛的安全评估方法,并分享了其演变过程中的方法以及从中得出的教训。
- 面向医学领域的安全对齐大型语言模型
本文首次对医学 LLMs 进行了安全评估,讨论了医学 LLMs 的安全和对齐性,并展示了微调作为有效的缓解策略,希望这项工作能够启发未来的研究,并开发出更多的缓解策略,以减少医学 LLMs 在医学领域中的潜在风险。
- 用于评估大型语言模型中的保障措施的中文数据集
通过引入一个用于评估中文 LLM 安全性的数据集,我们扩展到其他两个场景,用于更好地识别有风险的提示拒绝的假阴性和假阳性示例,并提出了细化的每种风险类型的安全评估标准,为 LLM 响应的有害性进行手动注释和自动评估。我们在五个 LLM 上的 - 恶魔天才:深入探究基于 LLM 的智能体的安全性
通过对大型语言模型(LLMs)进行安全评估,揭示了 LLM-based agents 面临的挑战、安全漏洞以及对未来研究的启示。
- 评估大型语言模型:综述
该研究综述了大型语言模型的评估方法,并提出了知识与能力评估、对齐评估和安全评估三个主要方面的评估方法,以及涵盖能力、对齐、安全和适用性的综合评估平台的构建。希望该综述能够推动对大型语言模型评估的更多研究兴趣,以促进负责任发展和最大化社会利益 - 生成型 AI 系统的社会技术安全评估
生成型人工智能系统的安全评估需要考虑风险,本文提出了一个三层框架来评估这些风险,结合体系安全原则并考虑人类互动和系统影响作为额外的评估层,同时分析现有的安全评估存在的几个问题并提出解决办法,以此实现生成型人工智能系统的全面安全评估。
- ASSERT:用于评估大型语言模型鲁棒性的自动化安全场景红队测试
在将大型语言模型整合到社会中时,对一套提示的鲁棒性越来越重要,以确保在高差异环境中保持可靠性。本文提出了 ASSERT(自动化安全场景红队演练),包括三种方法:语义对齐增强、目标引导和对抗性知识注入。为了进行鲁棒安全评估,我们将这些方法应用 - 通过利用生成技术实现对开源 LLMs 的灾难性越狱
通过改变文本生成策略,我们提出一种新的攻击方法(生成利用攻击),成功地使 11 种语言模型的对齐率从 0% 提高到超过 95%;我们还提出了一种有效的对齐方法,可在攻击下合理降低对齐失误率。这项研究强烈呼吁在发布开源大型语言模型之前进行更全 - 对抗性 Nibbler:一个以数据为中心的挑战,用于提高文本到图像模型的安全性
该研究旨在解决文本到图像(text-to-image,T2I)模型的安全问题,通过引入 Adversarial Nibbler 挑战,通过收集和分析对当前 state-of-the-art T2I 模型的攻击,来提高人们对这些问题的认识。
- DeepAccident: V2X 自动驾驶运动与事故预测基准
本文提出了 DeepAccident 数据集,据此可以直接评估不同自动驾驶算法的事故预测能力,这个数据集包含了多种真实世界中常见的事故场景,并提供了可用于感知和预测任务的多视角数据,并展示了基于 V2X 的运动和事故预测任务及 3D 物体检 - 深度强化学习在道路交通路口驾驶中的自我意识安全性
本研究通过引入注意力机制的自我感知模块,根据碰撞率、成功率、停滞率和总奖励等四个指标,对交叉口和环岛等复杂路口环境下的自主驾驶深度强化学习模型进行安全性能评估,并发现引入自我感知模块的 DQN 可显著提高安全表现。
- DiversityGAN: 通过潜在语义采样实现多样化意识的车辆运动预测
通过使用生成对抗网络模型和低维度近似语义空间,本文提出了一种新的逼真而多样化的车辆轨迹生成方法,可以从语义上控制轨迹的分布,具有最先进的预测性能和改进的安全性评估能力。