Jan, 2024

R-Judge:LLM 代理程序的安全风险意识基准测试

TL;DR通过评估 R-Judge,本研究使用包含 162 个代理人交互记录、涵盖 7 个应用类别和 10 种风险类型的 27 个关键风险场景的基准测试,对 8 个常用语言模型进行了全面评估。最佳模型 GPT-4 在对风险评估得分方面为 72.29%,而人类得分为 89.38%,显示了提高语言模型对风险意识的潜力。此外,利用风险描述作为环境反馈显著提高了模型的性能,揭示了突出的安全风险反馈的重要性。最终,通过设计有效的安全分析技术和深入的案例研究,有助于判断安全风险并促进未来研究。