BELLS: 未来证据高效安全评估的框架
在这项工作中,我们提出了 S-Eval,这是一个新的全面、多维度且开放的安全评估基准,通过训练专家测试的大型语言模型 Mt 与一系列测试选择策略相结合,自动构建了一个高质量的测试套件用于安全评估。该论文还介绍了一个四级的风险分类体系,覆盖了全面多维的安全风险,同时提供了灵活配置和适应新风险、攻击和模型的能力。S-Eval 在 20 个流行和代表性的大型语言模型上进行了广泛评估,结果表明相比现有的基准,S-Eval 可以更好地反映和提供大型语言模型的安全风险信息。
May, 2024
在大语言模型(LLMs)领域中,开发一个强健的安全机制,俗称 “保障措施” 或 “防护栏”,已成为确保在既定边界内道德使用 LLMs 的必要措施。本文通过系统性文献综述,讨论了这种关键机制的当前状态,探讨了其主要挑战,并阐述如何将其发展为一种全面应对各种情境中的道德问题的机制。
Jun, 2024
通过以人、过程和技术为视角,功能性和安全性为支柱,使用我们的统一评估框架,对 23 个最先进的 LLM 基准进行了研究,发现了显著的限制,并强调了在人工智能进步的背景下,标准化方法、监管确定性和伦理指南的迫切需求,以及通过协作努力发展被广泛接受的基准和增强人工智能系统融入社会的重要性。
Feb, 2024
大型语言模型(LLMs)的安全性评估是一个重要问题,该研究提出了一个名为 SALAD-Bench 的安全性基准,用于评估 LLMs 的攻击和防御方法,并通过广泛的实验验证 LLMs 对新兴威胁的抵抗力和现代防御策略的有效性。
Feb, 2024
大型语言模型引入新的安全风险,但缺乏综合评估套件来衡量和减少这些风险。我们提出了 BenchmarkName,这是一个用于量化 LLM 安全风险和能力的新型基准。我们介绍了两个新领域的测试:提示注入和代码解释器滥用。我们评估了多种最先进的 LLMs,包括 GPT-4、Mistral、Meta Llama 3 70B-Instruct 和 Code Llama。我们的结果表明,消除攻击风险的条件仍然是一个尚未解决的问题;例如,所有测试模型在成功的提示注入测试中显示出 26% 到 41% 之间的结果。我们进一步引入了安全效用权衡:将 LLM 条件化以拒绝不安全的提示可能导致 LLM 错误地拒绝回答良性提示,从而降低效用。我们建议使用 False Refusal Rate(FRR)来量化这种权衡。作为示例,我们引入了一个新的测试集来量化网络攻击有用性风险的 FRR。我们发现,许多 LLMs 能够与 “边界线” 良性请求成功地相符,同时拒绝大部分不安全的请求。最后,我们量化了 LLMs 在自动化核心网络安全任务(例如利用软件漏洞)方面的效用。这很重要,因为 LLMs 的进攻能力引起了极大的兴趣;我们通过为四个典型问题创建新的测试集来量化这一点。我们发现具有编码能力的模型优于无编码能力的模型,但 LLMs 在利用生成方面还需要进一步的工作。我们的代码是开源的,可以用于评估其他 LLMs。
Apr, 2024
利用一个全面评估的在线安全分析方法基准,本研究揭示了现有在线安全分析方法的优势和局限性,为选择最合适的方法提供了有价值的见解,并探索了将多种方法相结合以提高在线安全分析效果的潜力。
Apr, 2024
以 SafetyBench 为基础,该研究设计了一个综合评估大型语言模型安全性的基准测试工具,包括 11435 个不同类别的问题,并能够提供两种语言(中文和英文)的评估结果,通过测试发现 GPT-4 在安全性方面相较于其他模型表现突出,但当前大型语言模型的安全性仍有提升空间。
Sep, 2023
评估大型语言模型识别和拒绝不安全用户请求的能力对于安全和符合政策的应用至关重要,SORRY-Bench 是我们提出的基准测试方法,改善了现有方法的三个局限,包括对不安全主题的细致分类、考虑语言特征和格式的偏差以及设计高效的自动化安全评估器。
Jun, 2024
本文介绍了 MLLMGuard,一个针对 MLLMs 的多维安全评估套件,包括双语图文评估数据集、推理工具和轻量级评估器。通过对隐私、偏见、有毒性、真实性和合法性等五个重要安全维度进行全面评估,结果表明 MLLMs 在安全和责任方面仍有很长的路要走。
Jun, 2024