May, 2024

自主强化学习智能体中的欺骗行为:立法中的非传统兔帽戏法

TL;DR支持大型语言模型的最新发展引发了人们对其及基于其上构建的自治代理的安全性关注。本研究通过引入偏离常规的欺骗方式,即通过曲解和模棱两可的手法,对语言模型代理的本质性欺骗能力进行了研究,并在立法任务的对话系统中展示了这种能力的目标驱动环境。通过强化学习的方法,我们发现代理人在对抗性互动的试验中,其欺骗能力增加了近 40%(相对值),我们的欺骗检测机制显示出高达 92% 的检测能力。我们的研究结果凸显了代理人与人类互动中的潜在问题,代理人有可能操纵人类以实现其编程的最终目标。