Aug, 2024

RiskAwareBench:评估基于大语言模型的具身代理的物理风险意识

TL;DR本研究针对基于大语言模型的具身代理在真实环境中可能面临的物理风险缺乏意识的问题,提出了RiskAwareBench框架,用于自动评估具身代理的物理风险意识。该框架通过安全提示生成、风险场景生成、计划生成和评估四个模块,构建了PhysicalRisk数据集,并通过实验表明当前大语言模型的物理风险意识普遍不足,提示未来需加强这一领域的研究。