Nov, 2024
红码:代码助手的风险代码执行和生成基准
RedCode: Risky Code Execution and Generation Benchmark for Code Agents
TL;DR本研究针对代码助手在生成或执行风险代码时面临的安全问题提出了RedCode基准,以评估代码代理的安全性。该基准不仅提供了4,050个潜在风险的执行测试案例,还利用160个提示评估代码代理在指令下生成有害代码的能力。研究结果显示,代码代理在操作系统上拒绝执行风险操作的倾向较高,但对于技术性错误的代码拒绝率较低,这表明其潜在风险较大。