BriefGPT.xyz
Ask
alpha
关键词
guard
搜索结果 - 2
GUARD:通过角色扮演生成自然语言越狱以测试大型语言模型的指南遵循性
使用角色扮演系统结合知识图谱生成监狱破解方法,验证 LLMs 对监管规定的遵从性,并在不同模态下展示 GUARD 的多样性和对更安全可靠的 LLM 应用的有价值见解。
PDF
6 months ago
GUARD:一个安全的强化学习基准
引入了通用统一的安全强化学习开发基准(GUARD), 它是一个广义基准测试,涵盖了各种 RL 智能体、任务和安全约束规格。通过使用 GUARD 进行各种任务设置下的现有安全强化学习算法的比较,建立了未来工作可以构建基线的基础。
PDF
a year ago
Prev
Next