Apr, 2024

您的 “安全” 数据中有什么?:识别破坏安全性的良性数据

TL;DR通过双向锚定方法优先选择与有害示例接近但远离良性示例的数据点,我们的方法有效地识别了在微调后可能降低模型安全性的良性数据子集。