R-Judge：LLM 代理程序的安全风险意识基准测试

Jan, 2024

R-Judge：LLM 代理程序的安全风险意识基准测试

R-Judge: Benchmarking Safety Risk Awareness for LLM Agents

Tongxin Yuan, Zhiwei He, Lingzhong Dong, Yiming Wang, Ruijie Zhao...

TL;DR通过评估 R-Judge，本研究使用包含 162 个代理人交互记录、涵盖 7 个应用类别和 10 种风险类型的 27 个关键风险场景的基准测试，对 8 个常用语言模型进行了全面评估。最佳模型 GPT-4 在对风险评估得分方面为 72.29%，而人类得分为 89.38%，显示了提高语言模型对风险意识的潜力。此外，利用风险描述作为环境反馈显著提高了模型的性能，揭示了突出的安全风险反馈的重要性。最终，通过设计有效的安全分析技术和深入的案例研究，有助于判断安全风险并促进未来研究。

Abstract

large language models (LLMs) have exhibited great potential in autonomously completing tasks across real-world applications. Despite this, these LLM agents introduce unexpected safety risks when operating in inte

large language models behavioral safety r-judge safety risks risk awareness

发现论文，激发创造

LLM 风险与 AI 防护栏的现状

大型语言模型 (LLMs) 的部署与安全性及可靠性密切相关，然而它们在引入的同时也伴随着固有的风险，包括偏见、潜在的不安全行为、数据集污染、不可解释性、幻觉和非可重复性，为了避免潜在的危害，本研究探讨了部署 LLMs 所面临的风险，并评估了目前实施防护和模型对齐技术的方法，从固有和外在偏见评估方法入手，并讨论了公平度度量方法，还探讨了能够进行现实世界行为的主动型 LLMs 的安全性和可靠性，强调了可测试性、故障保护和情境意识的需求，还提出了保护 LLMs 的技术策略，包括操作在外部、次要和内部层次的分层保护模型，突出系统提示、检索增强生成 (RAG) 架构以及最小化偏见和保护隐私的技术，有效的防护设计要求深入理解 LLMs 的预期用例、相关法规和伦理因素，在精确性和隐私等竞争需求之间取得平衡仍然是一个持续挑战，本研究强调了持续研究和开发的重要性，以确保 LLMs 在实际应用中的安全和负责任使用。

Jun, 2024

SafetyBench: 用多项选择题评估大型语言模型的安全性

以 SafetyBench 为基础，该研究设计了一个综合评估大型语言模型安全性的基准测试工具，包括 11435 个不同类别的问题，并能够提供两种语言（中文和英文）的评估结果，通过测试发现 GPT-4 在安全性方面相较于其他模型表现突出，但当前大型语言模型的安全性仍有提升空间。

Sep, 2023

警示：通过红队测试全面评估大型语言模型的安全性的综合基准

应用 ALERT 基准评估安全性，通过对大规模语言模型进行对抗测试，识别漏洞，改进并提高语言模型的整体安全性。

Apr, 2024

评判裁决者：评估 LLM 裁决者的一致性和脆弱性

这篇论文通过对多种语言模型作为判断者的性能进行全面研究，发现了使用 Cohen 的 kappa 作为测度对齐度的重要性，并比较了不同模型之间的判断数据；该研究发现 Llama-3 70B 和 GPT-4 Turbo 语言模型的表现优于人类，然而在排名考生模型方面，JudgeLM-7B 和词汇判断器 Contains 比人类的对齐度低多达 34 分。通过错误分析和其他研究，包括指导长度和仁慈偏见的影响，该论文为今后在判断者角色上使用语言模型提供了宝贵的经验教训。

Jun, 2024

MLLMGuard：多模态大型语言模型的多维安全评估套件

本文介绍了 MLLMGuard，一个针对 MLLMs 的多维安全评估套件，包括双语图文评估数据集、推理工具和轻量级评估器。通过对隐私、偏见、有毒性、真实性和合法性等五个重要安全维度进行全面评估，结果表明 MLLMs 在安全和责任方面仍有很长的路要走。

Jun, 2024

在高风险领域评估大型语言模型

高风险领域中的语言模型性能评估是一个重要问题，本研究对指导调优的语言模型进行深入分析，重点关注事实准确性和安全性，通过在法律和医学两个高风险领域的六个自然语言处理数据集上进行实验，发现目前语言模型存在的局限性，并强调了提高语言模型能力和改进领域特定指标的重要性，以及通过更人性化的方法来增强安全性和事实可靠性，研究结果对于适应高风险领域、履行社会义务并符合即将颁布的欧盟 AI 法案具有重要推动作用。

Nov, 2023

中国大型语言模型的安全评估

为了进一步推动大型语言模型的安全部署，我们开发了一个中文 LLM 安全评估基准。我们的基准从八种典型的安全场景和六种更具挑战性的指令攻击等两个方面探索了 LLMs 的综合安全表现，并对 OpenAI GPT 系列和其他知名的中文 LLMs 等共 15 个 LLMs 进行了安全评估并分析了一些有趣的发现，公开发布了 100k 个增强测试用例和 LLMs 生成的响应。

Apr, 2023

使用 MT-Bench 和 Chatbot Arena 判断 LLM 作为法官

本研究介绍了使用强大的大型语言模型（LLM）作为评价者来评估基于 LLM 的聊天助手的方法，并引入了多个类别的评价指标。研究结果表明，LLM 评价者可以很好地匹配人类的偏好，且其评估结果与人类评估者的结果一致。

Jun, 2023

MLLM 作为评判者：以视觉 - 语言基准评估多模态 MLLM

通过引入一种新的基准测试，MLLMs 作为评判者，本研究揭示了 MLLMs 在评估任务中的能力，并发现 MLLMs 在对人员喜好的评估和排名任务中存在显著差异，同时面临着多样的偏见、幻觉反应和不一致问题，强调了对 MLLMs 进一步改进和研究的迫切需求。

Feb, 2024

SORRY-Bench: 大型语言模型安全拒绝行为系统评估

评估大型语言模型识别和拒绝不安全用户请求的能力对于安全和符合政策的应用至关重要，SORRY-Bench 是我们提出的基准测试方法，改善了现有方法的三个局限，包括对不安全主题的细致分类、考虑语言特征和格式的偏差以及设计高效的自动化安全评估器。

Jun, 2024