Oct, 2023

语言模型不对齐:参数化红队行动揭示隐藏的伤害和偏见

TL;DR通过参数化红队技术与非对齐性使得 Large Language Models (LLMs) 的安全性得到破坏,揭示模型中存在的潜在有害信息和偏见。