BriefGPT.xyz
Ask
alpha
关键词
bergeron
搜索结果 - 1
通过基于良心的对齐框架抵御对抗性攻击
通过引入 Bergeron 框架,我们可以增强大型语言模型对抗攻击的能力,改善模型的对齐性和稳健性,而无需昂贵的微调,从而为开源和黑箱语言模型提供辅助和加强对现有对齐训练的效果。
PDF
8 months ago
Prev
Next