Feb, 2024

TroubleLLM: 与红队专家对齐

TL;DR通过提出的第一个 LLM 模型 TroubleLLM 在 LLM 安全问题上生成可控的测试提示,广泛的实验和人工评估表明 TroubleLLM 在生成质量和生成可控性上的优越性。