Feb, 2025
朝着更安全的聊天机器人:定制GPT政策合规性评估框架
Towards Safer Chatbots: A Framework for Policy Compliance Evaluation of
Custom GPTs
TL;DR本研究针对定制GPT模型的安全和合规性风险,提出了一种可扩展的自动评估框架。该框架通过自动发现模型、生成针对特定政策的红队提示,并运用LLM作为评审者分析提示与响应,验证了在782个定制GPT中的有效性,发现58.7%的模型存在不合规的迹象,这为改进聊天室平台的安全性提供了重要依据。