Aug, 2023

通过话语链安全对齐红队大型语言模型

TL;DR基于大型语言模型的安全性评估与对抗、生成有害回应的问题以及安全对齐的方法和模型研究。