Feb, 2024

GUARD:通过角色扮演生成自然语言越狱以测试大型语言模型的指南遵循性

TL;DR使用角色扮演系统结合知识图谱生成监狱破解方法,验证 LLMs 对监管规定的遵从性,并在不同模态下展示 GUARD 的多样性和对更安全可靠的 LLM 应用的有价值见解。