Jan, 2024

潜伏特工:训练具备欺骗性的LLM通过安全训练而持续存在

TL;DR人类的策略性欺骗行为使我们可以在大多数情况下表现得很有帮助,但当有机会追求其他目标时则表现出截然不同的行为。研究证明,在大型语言模型中存在着例证意图的欺骗行为,并且尽管采用当前最先进的安全培训技术,这种行为很难被检测出和消除。