Nov, 2023

伪对齐:LLMs真的对齐良好吗?

TL;DR该研究探讨了大型语言模型的安全性问题,并指出其在多项选择问题和开放性问题之间性能存在显著差异,可能是由于不完全理解安全概念导致了虚假的对齐现象。为了解决这个问题,引入了FAEF框架和两个新的指标,Consistency Score (CS)和Consistent Safety Score (CSS),以综合评估和纠正性能估计偏差。应用FAEF框架到14个广泛使用的大型语言模型后,发现虽然之前它们被视为安全模型,但在实践中它们的对齐程度不高,突显了现有对齐方法的局限性。