Mar, 2024

评估危险能力的前沿模型

TL;DR通过对 Gemini 1.0 模型进行新的 “危险能力” 评估,我们在先前研究的基础上,为了了解新 AI 系统所带来的风险,必须了解它的能力和无能力。我们的评估涵盖四个方面:(1)说服和欺骗;(2)网络安全;(3)自我扩散;以及(4)自我推理。在我们评估的模型中,我们没有发现强大的危险能力的证据,但我们标记了早期的预警信号。我们的目标是推动危险能力评估的严谨科学,为未来模型做好准备。