Feb, 2024
GUARD:通过角色扮演生成自然语言越狱以测试大型语言模型的指南遵循性
GUARD: Role-playing to Generate Natural-language Jailbreakings to Test Guideline Adherence of Large Language Models
Haibo Jin, Ruoxi Chen, Andy Zhou, Jinyin Chen, Yang Zhang...
TL;DR使用角色扮演系统结合知识图谱生成监狱破解方法,验证 LLMs 对监管规定的遵从性,并在不同模态下展示 GUARD 的多样性和对更安全可靠的 LLM 应用的有价值见解。