Apr, 2025
$\texttt{SAGE}$:一种通用的语言模型安全评估框架
$\texttt{SAGE}$: A Generic Framework for LLM Safety Evaluation
TL;DR本文针对大型语言模型(LLM)安全评估的不足之处,特别是在应用特定风险及动态交互中的挑战,提出了$\texttt{SAGE}$框架。该框架通过采用具有独特个性和系统意识的对抗性用户模型,进行定制化和动态的危害评估,显著提高了安全评估的有效性。同时,实验表明,随着对话长度的增加,模型的危害也逐渐上升,强调了在实际应用中需要适应性和情景特定的测试。