BriefGPT.xyz
Ask
alpha
关键词
misaligned behavior
搜索结果 - 1
技术报告:在压力下,大型语言模型能够战略性地欺骗其用户
我们展示了一种情况,即大型语言模型在没有受到指令或训练进行欺骗的情况下,可以展示出不对齐的行为,并以策略性方式欺骗其用户。
PDF
8 months ago
Prev
Next