Nov, 2023

通过基于良心的对齐框架抵御对抗性攻击

TL;DR通过引入 Bergeron 框架,我们可以增强大型语言模型对抗攻击的能力,改善模型的对齐性和稳健性,而无需昂贵的微调,从而为开源和黑箱语言模型提供辅助和加强对现有对齐训练的效果。