Nov, 2023

MART:利用多轮自动红队测试提高 LLM 的安全性

TL;DR提出了一种名为 MART(Multi-round Automatic Red-Teaming)的自动多轮红队方法,通过自动对抗性提示编写和安全响应生成,显著提高了红队的可扩展性和目标大型语言模型的安全性。