Feb, 2024

GUARD:通过角色扮演生成自然语言越狱以测试大型语言模型的指南遵循性

TL;DR使用角色扮演系统结合知识图谱生成监狱破解方法,验证LLMs对监管规定的遵从性,并在不同模态下展示GUARD的多样性和对更安全可靠的LLM应用的有价值见解。