Nov, 2023

大规模语言模型背景注入中的隐蔽而持久的不对齐

TL;DR通过背门注入,在大型语言模型上进行隐秘而持续的非对准操作,可以成功通过安全评估,同时对抗重新对齐防御。