BriefGPT.xyz
Ask
alpha
关键词
content safety
搜索结果 - 2
AEGIS: 在线自适应 AI 内容安全审查与 LLM 专家集成
使用人工智能生成模型,我们定义了一个广泛的内容安全风险分类法,同时创建了一个新的数据集 AEGISSAFETYDATASET,用于研究和评估大型语言模型的安全性能。通过实验表明,我们提出的模型 AEGISSAFETYEXPERTS 不仅在多
→
PDF
3 months ago
对齐之毒
通过实验证明,内容安全问题角度来看,对齐对指令调整模型的性能有负面影响,尤其是在各种推理基准测试中,通过有对齐的答案进行调整会使性能下降 4-33%。
PDF
10 months ago
Prev
Next