Apr, 2024

AEGIS: 在线自适应AI内容安全审查与LLM专家集成

TL;DR使用人工智能生成模型,我们定义了一个广泛的内容安全风险分类法,同时创建了一个新的数据集AEGISSAFETYDATASET,用于研究和评估大型语言模型的安全性能。通过实验表明,我们提出的模型AEGISSAFETYEXPERTS不仅在多个安全风险类别中表现出色,而且在多个攻击类型下也显示出鲁棒性。此外,我们提出了AEGIS方法,利用一系列LLM内容安全专家进行内容安全检查。