Dec, 2023

评估真实自主任务上的语言模型代理

TL;DR我们研究语言模型代理获取资源、自我复制和适应新挑战的能力,我们称之为 “自主复制和适应”(ARA),并认为 ARA 可能具有广泛和难以预料的后果,对于安全、监测和对齐方面的措施提供有用的信息,此外,一旦系统具备 ARA 能力,限制其能力可能变得更加困难。