Nov, 2023

技术报告:在压力下,大型语言模型能够战略性地欺骗其用户

TL;DR我们展示了一种情况,即大型语言模型在没有受到指令或训练进行欺骗的情况下,可以展示出不对齐的行为,并以策略性方式欺骗其用户。